Rozwiązanie formy zamkniętej dla problemu lasso, gdy macierz danych jest ukośna

$\newcommand{\diag}{\operatorname{diag}}$ Mamy problem:

min_{w \in R^{d}} (\frac{1}{n} \sum_{i = 1}^{n} {(⟨ w, x_{i} ⟩ - y_{i})}^{2} + 2 λ | | w | |_{1}),

$\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),$ przy założeniu, że:

\sum_{i = 1}^{n} x_{i} x_{i}^{T} = diag (σ_{1}^{2}, . . ., σ_{d}^{2}) .

$\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2).$

Czy w tym przypadku istnieje rozwiązanie w formie zamkniętej?

Mam to:

(X^{T} X)^{- 1} = diag (σ_{1}^{- 2}, . . ., σ_{d}^{- 2}),

$(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),$ więc myślę, że odpowiedź brzmi :

w^{j} = y^{j} max {0, 1 - λ \frac{n}{| y^{j} |}},

$w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},$ dla

y^{j} = \sum_{i = 1}^{n} \frac{y_{i} x_{i}^{j}}{σ_{i}^{2}}

$y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}$ , ale nie jestem pewien.

— Arthur D.
źródło

Przejdę do pochodnej @ kardynała rozwiązania lasso zamkniętej postaci, gdy $X^T X = I$ , tutaj , z niewielkimi modyfikacjami.

Zakładam, że dla wszystkich . Jest to uzasadnione, ponieważ jeśli mamy to, że ta kolumna ma wartość 0 i myślę, że uzasadnione jest wykluczenie takiego przypadku. Powiem . Zauważ, że oznacza to również, że ma pełną pozycję, a rozwiązanie OLS jest jednoznacznie zdefiniowane. $\sigma^2_i > 0$ $i$ $\sigma^2_i = 0$ $i$ $X$ $X^T X = D$ $X$ $\hat \beta$

Zamierzam również zmodyfikować twoją notację, aby lepiej pasowała do tej w odpowiedzi, do której się odwołuję. W tym celu będę rozwiązywał

{\hat{β}}_{λ} = {argmin}_{β \in R^{p}} \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$\hat \beta_\lambda = \text{argmin}_{\beta \in \mathbb R^p } \frac 12 \vert \vert Y - X\beta\vert \vert^2_2 + \lambda \vert \vert \beta \vert \vert_1.$

Jest to identyczne z twoim problemem, ale mogę dodać więcej szczegółów tutaj, jeśli chcesz.

Po pochodnej @ kardynała mamy do rozwiązania

{\hat{β}}_{λ} = argmin \frac{1}{2} (Y^{T} Y - 2 Y^{T} X β + β^{T} X^{T} X β) + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } \frac 12 (Y^T Y - 2 Y^T X \beta + \beta^T X^T X \beta) + \lambda \vert \vert \beta \vert \vert_1$

= argmin - Y^{T} X β + \frac{1}{2} β^{T} D β + λ | | β | |_{1} .

$= \text{argmin } -Y^T X \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1.$

Biorąc pod uwagę, że rozwiązaniem OLS jest , mamy $\hat \beta = (X^T X)^{-1} X^T Y = D^{-1}X^T Y$

{\hat{β}}_{λ} = argmin - {\hat{β}}^{T} D β + \frac{1}{2} β^{T} D β + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } -\hat \beta^T D \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1$

= argmin \sum_{j = 1}^{p} - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$= \text{argmin } \sum_{j=1}^p -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Optymalizujemy każdy osobno, więc możemy rozwiązać każdy okres tej sumy osobno. Oznacza to, że musimy zminimalizować gdzie $\beta_j$ $\mathcal L_j$

L_{j} = - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$\mathcal L_j = -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Po całkowicie analitycznym argumencie do połączonej odpowiedzi stwierdzamy, że

({\hat{β}}_{λ})_{j} = s g n ({\hat{β}}_{j}) {(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} .

$(\hat \beta_\lambda)_j = \mathrm{sgn}(\hat \beta_j) \left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+.$

Ponadto więc mamy $\hat \beta = D^{-1} X^T Y \implies \hat \beta_j = \frac{X_j^T Y}{\sigma_j^2}$

{(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} = \frac{1}{σ_{j}^{2}} {(| X_{j}^{T} Y | - λ)}^{+}

$\left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+ = \frac 1 {\sigma^2_j} \left(|X_j^T Y| - \lambda\right)^+$

więc okazuje się, że predyktor jest dokładnie wtedy, gdy zrobiłby to, gdyby macierz projektowa była ortonormalna, a nie tylko ortogonalna. Widzimy więc, że w tym przypadku przy wybór zmiennych nie różni się od tego, jeśli , ale rzeczywiste współczynniki są skalowane zgodnie z wariancjami predyktora. $X_j$ $X^T X = D \neq I$ $X^T X = I$ $\hat \beta_\lambda$

Na koniec to rozwiązanie na podobne do twojego, co oznacza, że musimy pomnożyć przez coś, aby uzyskać . Jeśli mamy to $\hat \beta$ $\hat \beta_\lambda$ $(\hat \beta_\lambda)_j \neq 0$

({\hat{β}}_{λ})_{j} = sgn ({\hat{β}}_{j}) (| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}}) = {\hat{β}}_{j} - sgn ({\hat{β}}_{j}) \frac{λ}{σ_{j}^{2}}

$(\hat \beta_\lambda)_j = \text{sgn}(\hat \beta_j) \left( \vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \right) = \hat \beta_j - \text{sgn}(\hat \beta_j) \frac{\lambda}{\sigma^2_j}$

= {\hat{β}}_{j} (1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})

$= \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)$

od . $\frac{a}{\vert a \vert} = \text{sgn}(a)$

Zwracając uwagę, że dokładnie wtedy, gdy $(\hat \beta_\lambda)_j = 0$

| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}} \leq 0 ⟺ | {\hat{β}}_{j} | \leq \frac{λ}{σ_{j}^{2}} ⟺ 1 \leq \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} ⟺ 1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} \leq 0,

$\vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \leq 0 \iff \vert \hat \beta_j \vert \leq \frac{\lambda}{\sigma^2_j} \iff 1 \leq \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \iff 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \leq 0,$

widzimy, że możemy alternatywnie wyrazić jako $\hat \beta_\lambda$

({\hat{β}}_{λ})_{j} = {\hat{β}}_{j} {(1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})}^{+} .

$(\hat \beta_\lambda)_j = \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)^+.$

Jest to więc bardzo zbliżone do tego, co miałeś, ale nie dokładnie takie samo.

Zawsze lubię porównywać takie pochodne z dobrze znanymi bibliotekami, jeśli to możliwe, więc oto przykład w R:

## generating `x`
set.seed(1)
n = 1000
p = 5
sigma2s = 1:p
x = svd(matrix(rnorm(n * p), n, p))$u %*% diag(sqrt(sigma2s))

## check this
# t(x) %*% x

## generating `y`
betas = 1:p
y = x %*% betas + rnorm(nrow(x), 0, .5)

lambda = 2

## using a well-known library to fit lasso
library(penalized)
penalized(y, x, lambda1 = lambda)@penalized


## using closed form solution
betahat = lm(y ~ x - 1)$coef
ifelse(betahat > 0, 1, -1) * sapply(abs(betahat) - lambda / sigma2s, function(v) max(c(0, v)))

— jld
źródło