Intuicja dla stopni swobody LASSO

Zou i in. „O„ stopniach swobody lasso ” (2007) pokazują, że liczba niezerowych współczynników jest obiektywnym i spójnym oszacowaniem dla stopni swobody lasso.

Wydaje mi się to trochę sprzeczne z intuicją.

Załóżmy, że mamy model regresji (gdzie zmienne mają średnią zerową)

y = β x + ε .

$y=\beta x + \varepsilon.$

Załóżmy, że nieograniczone oszacowanie OLS dla wynosi . Może to z grubsza pokrywać się z oszacowaniem LASSO dla bardzo niskiej intensywności kary. $\beta$ $\hat\beta_{OLS}=0.5$ $\beta$
Załóżmy ponadto, że oszacowanie LASSO dla określonej intensywności kary wynosi . Na przykład może być „optymalną” dla danego zestawu danych znalezionego przy użyciu weryfikacji krzyżowej. $\lambda^*$ $\hat\beta_{LASSO,\lambda^*}=0.4$ $\lambda^*$ $\lambda$
Jeśli dobrze rozumiem, w obu przypadkach stopnie swobody wynoszą 1, ponieważ za każdym razem istnieje jeden niezerowy współczynnik regresji.

Pytanie:

Dlaczego stopnie swobody w obu przypadkach są takie same, mimo że sugeruje mniejszą „swobodę” w dopasowaniu niż ? $\hat\beta_{LASSO,\lambda^*}=0.4$ $\hat\beta_{OLS}=0.5$

Bibliografia:

Zou, Hui, Trevor Hastie i Robert Tibshirani. „O„ stopniach swobody ”lassa.” The Annals of Statistics 35.5 (2007): 2173-2192.

— Richard Hardy
źródło

świetne pytanie, które zasługiwałoby na większą uwagę!

— Matifou,

Załóżmy, że podano szereg wymiarową obserwacji, , . Załóżmy model postaci: gdzie , , i oznaczający produkt wewnętrzny. Niech będzie oszacowaniem przy użyciu metody dopasowania (dla naszych celów OLS lub LASSO). Wzór na stopnie swobody podany w artykule (równanie 1.2) jest następujący: $n$ $p$ $x_i \in \mathbb{R}^p$ $i = 1, \dotsc, n$

\begin{aligned} Y_{i} = ⟨ β, x_{i} ⟩ + ϵ \end{aligned}

$\begin{align} Y_i = \langle \beta, x_i\rangle + \epsilon \end{align}$

ϵ \sim N (0, σ^{2})

$\epsilon \sim N(0, \sigma^2)$

β \in R^{p}

$\beta \in \mathbb{R}^p$

⟨ \cdot, \cdot ⟩

$\langle \cdot, \cdot \rangle$

\hat{β} = δ ({Y_{i}}_{i = 1}^{n})

$\hat{\beta} = \delta(\{Y_i\}_{i=1}^n)$

β

$\beta$

δ

$\delta$

\begin{aligned} df (\hat{β}) = \sum_{i = 1}^{n} \frac{Cov (⟨ \hat{β}, x_{i} ⟩, Y_{i})}{σ^{2}} . \end{aligned}

$\begin{align} \text{df}(\hat{\beta}) = \sum_{i=1}^n \frac{\text{Cov}(\langle\hat{\beta}, x_i\rangle, Y_i)}{\sigma^2}. \end{align}$

Sprawdzając tę formułę, możemy przypuszczać, że zgodnie z Twoją intuicją, rzeczywista DOF dla LASSO będzie rzeczywiście mniejsza niż prawdziwa DOF z OLS; współczynnik skurczu spowodowany przez LASSO powinien dążyć do zmniejszenia kowariancji.

Teraz, aby odpowiedzieć na twoje pytanie, powodem, dla którego DOF dla LASSO jest taki sam, jak DOF dla OLS w twoim przykładzie, jest to, że masz do czynienia z szacunkami (choć obiektywnymi) uzyskanymi z określonego zestawu danych próbkowanego z modelu , prawdziwych wartości DOF. W przypadku każdego konkretnego zestawu danych takie oszacowanie nie będzie równe wartości rzeczywistej (zwłaszcza, że oszacowanie musi być liczbą całkowitą, podczas gdy prawdziwa wartość jest liczbą rzeczywistą w ogóle).

$\lambda$

— e2crawfo
źródło

{\hat{β}}_{L A S S O} = 0

$\hat\beta_{LASSO}=0$

< 1

$<1$

= 1

$=1$

Nawiasem mówiąc, dlaczego oszacowanie stopni swobody musi być liczbą całkowitą? Czy to naprawdę? Pragnę również zauważyć, że wewnętrzna notacja produktu wydaje się niepotrzebnie skomplikowana i jest rzadko używana na tej stronie; wystarczyłaby notacja macierzowa. Ale to oczywiście twój wybór.

— Richard Hardy,

Tak, to wszystko podsumowuje. Oszacowanie stopni swobody musi być liczbą całkowitą dla LASSO (przynajmniej dla jednego zestawu danych) tylko dlatego, że oszacowanie jest liczbą niezerowych współczynników.

— e2crawfo

Stwierdzenie Oszacowanie stopni swobody musi być liczbą całkowitą dla LASSO tylko dlatego, że oszacowanie to liczba niezerowych współczynników wydaje mi się wysoce tautologiczna. Ogólnie rzecz biorąc, nie sądzę, że df musi być liczbą całkowitą, od samej definicji df, którą napisałeś. Podobnie w przypadku kalenicy niekoniecznie jest to zero.

— Matifou