Związek między regresją kalenicową a regresją PCA

Pamiętam, że gdzieś w Internecie przeczytałem związek między regresją kalenicy (z regulacją $\ell_2$ ) a regresją PCA: podczas korzystania z regresji regulowanej z hiperparametrem , jeśli , to regresja jest równoważna usunięciu Zmienna PC o najmniejszej wartości własnej. $\ell_2$ $\lambda$ $\lambda \to 0$

Dlaczego to prawda?
Czy to ma coś wspólnego z procedurą optymalizacji? Naiwnie oczekiwałbym, że będzie to odpowiednik OLS.
Czy ktoś ma do tego referencje?

— Jose G.
źródło

Czy możesz wyjaśnić bardziej precyzyjnie, w jaki sposób PCA i regresja są połączone w twoim oświadczeniu? Regresja odróżnia zależne od zmiennych niezależnych, podczas gdy nic takiego nie występuje w PCA. Więc do jakich zmiennych stosuje się PCA? Nie mogą to być tylko zmienne niezależne, ponieważ nie miałoby to nic wspólnego z regresją. Ale jeśli zostanie zastosowane do wszystkich zmiennych, wówczas wektory własne są liniowymi kombinacjami ich wszystkich. Co może to oznaczać usunięcie dowolnego takiego komponentu z zestawu danych, ponieważ dotyczy zmiennej zależnej?

— whuber

Związek (jak rozumiem) polega na tym, że jeśli użyjesz bardzo małej kary regularyzacyjnej, regresja regulowana przez L2 usunęłaby zmienną o najmniejszej wartości własnej. Dlatego robienie SVD na matrycy projektowej i usuwanie zmiennej o najmniejszej wartości własnej jest równoważne regresji z „miękką” karą za regularyzację ... To jest najbliższe wytłumaczenie, jakie znalazłem na ten temat: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf

— Jose G

Wydaje się, że twoje odniesienie pokazuje przeciwieństwo tego, co mówisz w swoich komentarzach: w przypadku małego

zmiana wyników jest bardzo niewielka. W ogóle nic nie jest usuwane. W rzeczywistości kilka slajdów wydaje się wskazywać na różnicę między regresją karną

(w której szacunki są zmniejszane do

) a „regresją PCA” (w której całkowicie usuwane są najmniejsze składniki - co może być bardzo złe w niektóre okoliczności).

λ

$\lambda$

L^{2}

$L^2$

0

$0$

— whuber

Mmm .. znalazł inne odniesienie: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf Na slajdzie „

i główne komponenty” mówi, że regresja grzbietu rzutuje y na te komponenty za pomocą big dj * westchnienie *

y^{r i d g e}

$y^{ridge}$

— Jose G

Czy zauważyłeś, że p. 14 z tego ostatniego odniesienia wyraźnie odpowiada na twoje pytanie?

— whuber

Odpowiedzi:

Niech będzie wyśrodkowaną macierzą predykcyjną i rozważmy jej rozkład liczby pojedynczej gdzie jest macierzą diagonalną z elementami diagonalnymi . $\mathbf X$ $n \times p$ $\mathbf X = \mathbf{USV}^\top$ $\mathbf S$ $s_i$

Dopasowanego wartości zwykłych najmniejszych kwadratów (OLS) regresji są podane Dopasowanego wartości regresji grzbiet są podane

{\hat{y}}_{O L S} = X β_{O L S} = X (X^{⊤} X)^{- 1} X^{⊤} y = U U^{⊤} y .

$\hat {\mathbf y}_\mathrm{OLS} = \mathbf X \beta_\mathrm{OLS} = \mathbf X (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y = \mathbf U \mathbf U^\top \mathbf y.$

Dopasowanego wartości regresji PCA (PCR) z

składników są podane

{\hat{y}}_{r i d g e} = X β_{r i d g e} = X (X^{⊤} X + λ I)^{- 1} X^{⊤} y = U d i a g {\frac{s_{i}^{2}}{s_{i}^{2} + λ}} U^{⊤} y .

$\hat {\mathbf y}_\mathrm{ridge} = \mathbf X \beta_\mathrm{ridge} = \mathbf X (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y = \mathbf U\: \mathrm{diag}\left\{\frac{s_i^2}{s_i^2+\lambda}\right\}\mathbf U^\top \mathbf y.$

k

$k$

gdzie jest

jedynek poprzedzonych zerami.

{\hat{y}}_{P C R} = X_{P C A} β_{P C R} = U d i a g {1, \dots, 1, 0, \dots 0} U^{⊤} y,

$\hat {\mathbf y}_\mathrm{PCR} = \mathbf X_\mathrm{PCA} \beta_\mathrm{PCR} = \mathbf U\: \mathrm{diag}\left\{1,\ldots, 1, 0, \ldots 0\right\}\mathbf U^\top \mathbf y,$

k

$k$

Stąd możemy zobaczyć, że:

Jeśli wówczas . $\lambda=0$ $\hat {\mathbf y}_\mathrm{ridge} = \hat {\mathbf y}_\mathrm{OLS}$
$\lambda>0$ $s_i$ $s_i^2 \approx \lambda$
$k$ $\lambda=0$ $k$ $\lambda=\infty$
Oznacza to, że regresję grzbietu można postrzegać jako „płynną wersję” PCR.

$s_i$ $\mathbf X$
Regresja grzbietu ma tendencję do osiągania lepszych wyników w praktyce (np. W celu uzyskania wyższej wydajności potwierdzonej krzyżowo)
$\lambda \to 0$ $\hat {\mathbf y}_\mathrm{ridge} \to \hat {\mathbf y}_\mathrm{OLS}$ $s_i$

Jednym z dobrych odniesień są elementy uczenia statystycznego , sekcja 3.4.1 „Regresja kalenicy”.

Zobacz także ten wątek: Interpretacja regulacji regularności grzbietu w regresji, a w szczególności odpowiedź @BrianBorchers.

— ameba mówi Przywróć Monikę
źródło

s_{i} -

$s_i -$

β_{L e a s t - s q u a r e s}

$\beta_{Least-squares}$

k

$k$

U diag (1_{1}, 1_{2}, . . ., 1_{k}, 0, . . ., 0) U^{T} y

$\mathbf{U} {\text{diag}}(1_1,1_2,...,1_k,0,...,0)\mathbf{U}^T\mathbf{y}$

To jest piękne.

— xxx222,

Elementy uczenia statystycznego mają świetną dyskusję na temat tego związku.

Zinterpretowałem to połączenie i logikę w następujący sposób:

PCA jest liniową kombinacją zmiennych cech, próbującą zmaksymalizować wariancję danych wyjaśnioną przez nową przestrzeń.
Dane cierpiące na wielokoliniowość (lub więcej predyktorów niż wiersze danych) prowadzą do macierzy kowariancji, która nie ma pełnej rangi.
Dzięki tej macierzy kowariancji nie możemy odwrócić, aby ustalić rozwiązanie najmniejszych kwadratów; powoduje to przybliżenie liczbowe współczynników najmniejszych kwadratów aż do nieskończoności.
Regresja grzbietowa wprowadza karę lambda na macierz kowariancji, aby umożliwić odwrócenie macierzy i zbieżność współczynników LS.

Połączenie PCA polega na tym, że regresja grzbietu oblicza kombinacje liniowe cech, aby określić, gdzie występuje wielokoliniowość. Kombinacje liniowe cech (analiza składowych zasad) o najmniejszej wariancji (a zatem mniejsze wartości osobliwe i mniejsze wartości własne w PCA) są najsilniej karane.

Pomyśl o tym w ten sposób; dla liniowych kombinacji cech o najmniejszej wariancji znaleźliśmy cechy, które są do siebie najbardziej podobne, a zatem powodują wielokoliniowość. Ponieważ Ridge nie zmniejsza zestawu elementów, niezależnie od kierunku, który opisuje to połączenie liniowe, najbardziej oryginalna cecha odpowiadająca temu kierunkowi jest najbardziej karana.

— MDornbos
źródło

X β = y,

$\mathbf X \beta = \mathbf y\,,$

X

$\mathbf X$

X = U S V^{T},

$\mathbf X = \mathbf U \,\mathbf S \,\mathbf V^T,$

S = diag (s_{i})

$\mathbf S = \text{diag}(s_i)$

$\beta$

β_{O L S} = V S^{- 1} U^{T}

$\beta_{OLS} = \mathbf V \,\mathbf S^{-1} \,\mathbf U^T$

s_{i}

$s_i$

$\mathbf S^{-1}$ $\beta$

\begin{aligned} S_{ridge}^{- 1} & = diag (\frac{s_{i}}{s_{i}^{2} + α}), \\ β_{ridge} & = V S_{ridge}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{ridge}} &= \text{diag}\bigg(\frac{s_i}{s^2_i+\alpha}\bigg),\\ \beta_{\text{ridge}} &= \ \mathbf V \,\mathbf S_{\text{ridge}}^{-1} \,\mathbf U^T \end{align}$

$\mathbf S^{-1}$

\begin{aligned} S_{PCA}^{- 1} & = diag (\frac{1}{s_{i}} θ (s_{i} - γ)), \\ β_{PCA} & = V S_{PCA}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{PCA}} &= \text{diag}\bigg(\frac{1}{s_i} \, \theta(s_i-\gamma)\bigg)\,,\\ \beta_{\text{PCA}} &= \ \mathbf V \,\mathbf S_{\text{PCA}}^{-1} \,\mathbf U^T \end{align}$

θ

$\theta$

γ

$\gamma$

Obie metody osłabiają w ten sposób wpływ podprzestrzeni odpowiadających małym wartościom. PCA robi to w trudny sposób, podczas gdy grzbiet jest płynniejszy.

S_{myReg}^{- 1} = diag (R (s_{i})),

$\mathbf S^{-1}_{\text{myReg}} = \text{diag}\big(R(s_i)\big)\,,$ where

R (x)

$R(x)$ is a function that should approach zero for

x \to 0

$x\rightarrow 0$ and

R (x) \to x^{- 1}

$R(x)\rightarrow x^{-1}$ for

x

$x$ large. But remember, there's no free lunch.

— davidhigh
źródło