Granica estymacji regresji grzbietu „wariancji jednostkowej”, gdy

Rozważ regresję kalenicową z dodatkowym ograniczeniem wymagającym, aby miał jednostkową sumę kwadratów (równoważnie wariancję jednostkową); w razie potrzeby można założyć, że ma również jednostkową sumę kwadratów: $\hat{\mathbf y}$ $\mathbf y$

{\hat{β}}_{λ}^{*} = \arg min {‖ y - X β ‖^{2} + λ ‖ β ‖^{2}} s.t. ‖ X β ‖^{2} = 1.

$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1.$

Jaki jest limit $\hat{\boldsymbol\beta}_\lambda^*$ kiedy $\lambda\to\infty$ ?

Oto kilka stwierdzeń, które moim zdaniem są prawdziwe:

Gdy $\lambda=0$ , istnieje czyste, wyraźne rozwiązanie: weź estymator OLS $\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ i znormalizuj go, aby spełnić ograniczenie (można to zobaczyć, dodając mnożnik Lagrange'a i różnicując):
${\hat{β}}_{0}^{*} = {\hat{β}}_{0} / ‖ X {\hat{β}}_{0} ‖ .$ $\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|.$
Ogólnie rzecz biorąc, rozwiązaniem jest
${\hat{β}}_{λ}^{*} = ((1 + μ) X^{⊤} X + λ I)^{- 1} X^{⊤} y with μ needed to satisfy the constraint .$ $\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$ Nie widzę rozwiązania w postaci zamkniętej, gdy $\lambda >0$ . Wygląda na to, że rozwiązanie jest równoważne zwykłemu estymatorowi RR z pewną wartością $\lambda^*$ znormalizowaną w celu spełnienia ograniczenia, ale nie widzę zamkniętej formuły dla $\lambda^*$ .
Kiedy $\lambda\to \infty$ , zwykły estymator RR
${\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y$ $\hat{\boldsymbol\beta}_\lambda=(\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}\mathbf X^\top \mathbf y$ oczywiście zbiega się do zera, ale jego kierunek $\hat{\boldsymbol\beta}_\lambda \big/ \|\hat{\boldsymbol\beta}_\lambda\|$ zbiega się w kierunku $\mathbf X^\top \mathbf y$ , czyli pierwszego komponentu najmniejszych częściowych kwadratów (PLS).

Oświadczenia (2) i (3) razem sprawiają, że myślę, że być może $\hat{\boldsymbol\beta}_\lambda^*$ również jest zbieżny z odpowiednio znormalizowanym $\mathbf X^\top \mathbf y$ , ale nie jestem pewien, czy to jest poprawne i tak się nie udało.

— ameba mówi Przywróć Monikę
źródło

Odpowiedzi:

Interpretacja geometryczna

Estymator opisany w pytaniu jest odpowiednikiem mnożnika Lagrange'a następującego problemu optymalizacji:

minimize f (β) subject to g (β) \leq t and h (β) = 1

$\text{minimize $f(\beta)$ subject to $g(\beta) \leq t$ and $h(\beta) = 1$ }$

\begin{aligned} f (β) & = ‖ y - X β ‖^{2} \\ g (β) & = ‖ β ‖^{2} \\ h (β) & = ‖ X β ‖^{2} \end{aligned}

$\begin{align} f(\beta) &= \lVert y-X\beta \lVert^2 \\ g(\beta) &= \lVert \beta \lVert^2\\ h(\beta) &= \lVert X\beta \lVert^2 \end{align}$

które można postrzegać geometrycznie jako znalezienie najmniejszej elipsoidy która dotyka przecięcia sfery elipsoidy $f(\beta)=\text{RSS }$ $g(\beta) = t$ $h(\beta)=1$

Porównanie do standardowego widoku regresji kalenicy

Pod względem widoku geometrycznego zmienia to stary widok (dla standardowej regresji grzbietu) punktu, w którym styka się sferoida (błędy) i kula ( ) $\|\beta\|^2=t$ . W nowym widoku, w którym szukamy punktu, w którym sferoida (błędy) dotyka krzywej (norma beta ograniczona przez ) $\|X\beta\|^2=1$ . Jedna kula (niebieska na lewym obrazku) zmienia się w postać o niższym wymiarze ze względu na przecięcie z ograniczeniem . $\|X\beta\|=1$

W przypadku dwuwymiarowym jest to łatwe do przejrzenia.

Kiedy dostosować parametr następnie zmienia względne długości niebieski / czerwony kulek lub względnych rozmiarów i (W teorii Lagrange'a mnożących jest prawdopodobnie gustowny sposób formalnie i dokładnie opisuj, że oznacza to, że dla każdego jako funkcja lub odwrócona jest funkcją monotonna. Ale wyobrażam sobie, że intuicyjnie widzisz, że suma kwadratów reszt rośnie tylko wtedy, gdy zmniejszamy .) $t$ $f(\beta)$ $g(\beta)$ $t$ $\lambda$ $||\beta||$

Rozwiązanie dla jest takie, jak argumentowałeś na linii między 0 a $\beta_\lambda$ $\lambda=0$ $\beta_{LS}$

Rozwiązanie dla jest (tak jak skomentowałeś) w ładowaniach pierwszego głównego komponentu. W tym momencie jest najmniejszy dla . Jest to punkt, w którym okrąg dotyka elipsy w jednym punkcie. $\beta_\lambda$ $\lambda \to \infty$ $\lVert \beta \rVert^2$ $\lVert \beta X \rVert^2 = 1$ $\lVert \beta \rVert^2=t$ $|X\beta|=1$

W tym widoku krawędzie przecięcia kuli oraz sferoidy są punktami. W wielu wymiarach będą to krzywe $\lVert \beta \rVert^2 =t$ $\lVert \beta X \rVert^2 = 1$

(Najpierw wyobrażałem sobie, że te krzywe będą elipsami, ale są bardziej skomplikowane. Można sobie wyobrazić, że elipsoida jest przecięta przez piłkę jak niektóre rodzaj elipsoidy, ale z krawędziami, które nie są prostymi elipsami) $\lVert X \beta \rVert^2 = 1$ $\lVert \beta \rVert^2 \leq t$

Jeśli chodzi o limit $\lambda \to \infty$

Na początku (poprzednie edycje) napisałem, że będą pewne ograniczenia powyżej których wszystkie rozwiązania są takie same (i znajdują się w punkcie ). Ale to nie przypadek $\lambda_{lim}$ $\beta^*_\infty$

Rozważ optymalizację jako algorytm LARS lub spadek gradientu. Jeśli dla dowolnego punktu istnieje kierunek, w którym możemy zmienić tak, że kara umowna wzrasta mniej niż wartość SSR maleje, to nie jesteś w minimum . $\beta$ $\beta$ $|\beta|^2$ $|y-X\beta|^2$

W normalnej regresji grzbietu masz zerowe nachylenie (we wszystkich kierunkach) dla w punkcie . Tak więc dla wszystkich skończonych rozwiązaniem nie może być (ponieważ można wykonać nieskończenie mały krok w celu zmniejszenia sumy kwadratów reszt bez zwiększania kary). $|\beta|^2$ $\beta=0$ $\lambda$ $\beta = 0$
W przypadku LASSO nie jest to takie samo, ponieważ: kara wynosi (więc nie jest kwadratowa z zerowym nachyleniem). Z tego powodu LASSO będzie miało pewną wartość graniczną powyżej której wszystkie rozwiązania są zerowe, ponieważ kara umowna (pomnożona przez ) wzrośnie bardziej niż pozostała suma kwadratów spadnie. $\lvert \beta \rvert_1$ $\lambda_{lim}$ $\lambda$
W przypadku ograniczonego grzbietu otrzymujesz to samo, co zwykłą regresję grzbietu. Jeśli zmienisz zaczynając od zmiana ta będzie prostopadła do ( jest prostopadła do powierzchni elipsy ) i można zmienić krokiem nieskończenie małym bez zmiany terminu kary, ale zmniejszając sumę kwadratów reszt. Zatem dla każdego skończonego punkt nie może być rozwiązaniem. $\beta$ $\beta^*_\infty$ $\beta$ $\beta^*_\infty$ $|X\beta|=1$ $\beta$ $\lambda$ $\beta^*_\infty$

Dalsze uwagi dotyczące limitu $\lambda \to \infty$

Zwykły limit regresji grzbietu dla do nieskończoności odpowiada innemu punktowi ograniczonej regresji grzbietu. Ten „stary” limit odpowiada punktowi, w którym jest równe -1. Następnie pochodna funkcji Lagrange'a w znormalizowanym problemie $\lambda$ $\mu$

$2 (1 + μ) X^{T} X β + 2 X^{T} y + 2 λ β$ $2 (1+\mu) X^{T}X \beta + 2 X^T y + 2 \lambda \beta$ odpowiada rozwiązaniu pochodnej funkcji Lagrange'a w standardowym problemie

$2 X^{T} X β^{'} + 2 X^{T} y + 2 \frac{λ}{(1 + μ)} β^{'} with β^{'} = (1 + μ) β$ $2 X^{T}X \beta^\prime + 2 X^T y + 2 \frac{\lambda}{(1+\mu)} \beta^\prime \qquad \text{with $\beta^\prime = (1+\mu)\beta$}$

Napisane przez StackExchangeStrike

— Sextus Empiricus
źródło

+1. Wielkie dzięki, to jest bardzo pomocne! Potrzebuję trochę czasu, aby to przemyśleć.

— ameba mówi Przywróć Monikę

Warto zauważyć, że czerwone i czarne elipsoidy mają ten sam kształt: dlatego punkt, w którym się dotykają, leży na linii łączącej ich centra. Niezły graficzny dowód na punkt 1 w moim pytaniu.

— ameba mówi Przywróć Monikę

Próbuję zrozumieć, gdzie na twoim rysunku jest beta, która odpowiada estymatowi grzbietu z nieskończoną lambda, znormalizowanym do położenia na czarnej elipsie. Myślę, że jest gdzieś pomiędzy i (używając mojej notacji) - dwa punkty, które są oznaczone czarnymi otwartymi okręgami na twoim rysunku. Więc jeśli wykonamy regresję grzbietu i znormalizujemy rozwiązanie i zwiększymy lambda od 0 do nieskończoności, prawdopodobnie zabierze nas to tym samym łukiem, ale nie całą drogę do PC1. Zamiast tego jawne wprowadzenie ograniczenia powoduje, że rozwiązania działają aż do PC1.

β_{0}^{*}

$\beta_0^*$

β_{\infty}^{*}

$\beta_\infty^*$

‖ X β ‖ = 1

$\|X\beta\|=1$

— Ameba mówi Przywróć Monikę

+5 (rozpocząłem nagrodę, którą chętnie przyznam na twoją odpowiedź). Opublikowałem również własną odpowiedź, ponieważ wykonałem kilka pochodnych algebraicznych i było zbyt wiele, aby dodać do pytania. Nie przekonuje mnie twoja konkluzja, że pojawi się skończony po którym rozwiązanie nie zmieni się i zostanie podane przez PC1. Nie widzę tego algebraicznie i nie do końca rozumiem twój argument za tym, dlaczego miałby istnieć. Spróbujmy to rozgryźć.

λ_{lim}

$\lambda_\text{lim}$

— ameba mówi Przywróć Monikę

@amoeba, miałeś rację, że skończony nie istnieje. Za dużo argumentowałem intuicyjnie i szybko przeskoczyłem z określonego warunku dla regularnej regresji kalenicy do ograniczonej regresji kalenicy. Zwykłe RR ma zerowe nachylenie (we wszystkich kierunkach) dla w punkcie . Myślałem, że (od ) nie dostaniesz tego przy ograniczonej regresji. Ponieważ jednak jest ograniczona do elipsoidy nie możesz „przenieść” we wszystkich kierunkach.

λ_{lim}

$\lambda_{\lim}$

| β |^{2}

$|\beta|^2$

β = 0

$\beta = 0$

β_{\infty}^{*} \neq 0

$\beta^*_\infty \neq 0$

β

$\beta$

| X β | = 1

$|X\beta| =1$

β

$\beta$

— Sextus Empiricus

Jest to algebraiczny odpowiednik pięknej geometrycznej odpowiedzi @ Martijn.

Przede wszystkim limit gdy jest bardzo proste do uzyskania: w limicie pierwszy termin w funkcji straty staje się nieistotny i dlatego można go pominąć. Problemem optymalizacji staje się który jest pierwszym głównym składnikiem

{\hat{β}}_{λ}^{*} = \arg min {‖ y - X β ‖^{2} + λ ‖ β ‖^{2}} s.t. ‖ X β ‖^{2} = 1

$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1$

λ \to \infty

$\lambda\to\infty$

lim_{λ \to \infty} {\hat{β}}_{λ}^{*} = {\hat{β}}_{\infty}^{*} = \underset{‖ X β ‖^{2} = 1}{a r g m i n} ‖ β ‖^{2} \sim \underset{‖ β ‖^{2} = 1}{a r g m a x} ‖ X β ‖^{2},

$\lim_{\lambda\to\infty}\hat{\boldsymbol\beta}_\lambda^* = \hat{\boldsymbol\beta}_\infty^* = \operatorname*{arg\,min}_{\|\mathbf X \boldsymbol\beta\|^2=1}\|\boldsymbol\beta\|^2 \sim \operatorname*{arg\,max}_{\| \boldsymbol\beta\|^2=1}\|\mathbf X\boldsymbol\beta\|^2,$

X

$\mathbf X$ (odpowiednio skalowane). To odpowiada na pytanie.

Rozważmy teraz rozwiązanie dla dowolnej wartości , o której wspomniałem w punkcie # 2 mojego pytania. Dodając do funkcji straty mnożnik Lagrange'a i różnicując, otrzymujemy $\lambda$ $\mu(\|\mathbf X\boldsymbol\beta\|^2-1)$

{\hat{β}}_{λ}^{*} = ((1 + μ) X^{⊤} X + λ I)^{- 1} X^{⊤} y with μ needed to satisfy the constraint .

$\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$

Jak zachowuje się to rozwiązanie, gdy rośnie od zera do nieskończoności? $\lambda$

Gdy , otrzymujemy przeskalowaną wersję rozwiązania OLS: $\lambda=0$
${\hat{β}}_{0}^{*} \sim {\hat{β}}_{0} .$ $\hat{\boldsymbol\beta}_0^* \sim \hat{\boldsymbol\beta}_0.$
W przypadku dodatnich, ale niewielkich wartości , rozwiązaniem jest skalowana wersja jakiegoś estymatora grzbietu: $\lambda$
${\hat{β}}_{λ}^{*} \sim {\hat{β}}_{λ^{*}} .$ $\hat{\boldsymbol\beta}_\lambda^* \sim \hat{\boldsymbol\beta}_{\lambda^*}.$
Kiedy, wartość potrzebna do spełnienia ograniczenia wynosi . Oznacza to, że rozwiązaniem jest skalowana wersja pierwszego komponentu PLS (co oznacza, że odpowiedniego estymatora grzbietu to ): $\lambda=\|\mathbf X\mathbf X^\top \mathbf y\|$ $(1+\mu)$ $0$ $\lambda^*$ $\infty$
${\hat{β}}_{‖ X X^{⊤} y ‖}^{*} \sim X^{⊤} y .$ $\hat{\boldsymbol\beta}_{\|\mathbf X\mathbf X^\top \mathbf y\|}^* \sim \mathbf X^\top \mathbf y.$
Gdy staje się większe, niezbędny termin staje się ujemny. Odtąd rozwiązaniem jest skalowana wersja estymatora pseudo-grzbietu z ujemnym parametrem regularyzacji ( grzbiet ujemny ). Pod względem kierunków, jesteśmy teraz przeszłość grzbiet regresji z nieskończoną lambda. $\lambda$ $(1+\mu)$
Gdy , termin będzie zerowy (lub rozbieżny do nieskończoność), chyba że gdzie jest największą liczbą pojedynczą z . Spowoduje to, że skończony i proporcjonalny do pierwszej osi głównej . Musimy ustawić aby spełnić ograniczenie. W ten sposób otrzymujemy $\lambda\to\infty$ $\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}$ $\mu = -\lambda/ s^2_\mathrm{max} + \alpha$ $s_\mathrm{max}$ $\mathbf X=\mathbf{USV}^\top$ $\hat{\boldsymbol\beta}_\lambda^*$ $\mathbf V_1$ $\mu = -\lambda/ s^2_\mathrm{max} + \mathbf U_1^\top \mathbf y -1$
${\hat{β}}_{\infty}^{*} \sim V_{1} .$ $\hat{\boldsymbol\beta}_\infty^* \sim \mathbf V_1.$

Ogólnie rzecz biorąc, widzimy, że ten ograniczony problem minimalizacji obejmuje wersje wariancji jednostek OLS, RR, PLS i PCA w następującym spektrum:

OLS \to RR \to PLS \to negative RR \to PCA

$\boxed{\text{OLS} \to \text{RR} \to \text{PLS} \to \text{negative RR} \to \text{PCA}}$

Wydaje się to równoważne z niejasnym (?) Szkieletem chemometrii zwanym „regresją ciągłą” (patrz https://scholar.google.de/scholar?q="continuum+ regression ” , w szczególności Stone & Brooks 1990, Sundberg 1993, Björkström i Sundberg 1999 itd.), Który umożliwia to samo ujednolicenie poprzez maksymalizację kryterium ad hocTo oczywiście daje skalowany OLS, gdy , PLS, gdy , PCA, gdy , i można wykazać, że daje skalowane RR dla

T = {corr}^{2} (y, X β) \cdot {Var}^{γ} (X β) s.t. ‖ β ‖ = 1.

$\mathcal T = \operatorname{corr}^2(\mathbf y, \mathbf X \boldsymbol\beta)\cdot \operatorname{Var}^\gamma(\mathbf X\boldsymbol\beta) \;\;\text{s.t.}\;\;\|\boldsymbol\beta\|=1.$

γ = 0

$\gamma=0$

γ = 1

$\gamma=1$

γ \to \infty

$\gamma\to\infty$

0 < γ < 1

$0<\gamma<1$

1 < γ < \infty

$1<\gamma<\infty$ , patrz Sundberg 1993.

Pomimo dość dużego doświadczenia z RR / PLS / PCA / itp. Muszę przyznać, że nigdy wcześniej nie słyszałem o „regresji kontinuum”. Powinienem również powiedzieć, że nie lubię tego terminu.

Schemat, który zrobiłem na podstawie schematu @ Martijn:

Aktualizacja: Figura zaktualizowana o negatywną ścieżkę grzbietu, wielkie dzięki @Martijn za sugestię, jak powinna wyglądać. Zobacz moją odpowiedź w Zrozumienie negatywnej regresji grzbietu, aby uzyskać więcej szczegółów.

— ameba mówi Przywróć Monikę
źródło

„Regresja ciągła” wydaje się być jedną z zaskakująco szerokiej kategorii technik mających na celu unifikację PLS i PCA we wspólnych ramach. Nawiasem mówiąc, nigdy o tym nie słyszałem, dopóki nie zbadałem negatywnego grzbietu (podam link do artykułu Bjorkstron i Sundberg, 1999, w pierwszym komentarzu do pytania o grzbiet negatywny, który łączysz), choć wydaje się, że jest to dość szeroko omawiane w literatura chemometryczna. Musi być jakiś historyczny powód, dla którego rozwija się on pozornie w oderwaniu od innych dziedzin statystyki. (1/3)

— Ryan Simmons

Jednym z artykułów, który możesz chcieć przeczytać jest de Jong i in. (2001) . Ich sformułowanie „kanonicznego PLS” wydaje się na pierwszy rzut oka równoważne z twoim, chociaż przyznaję, że jeszcze nie rygorystycznie porównałem matematykę (zapewniają również przegląd kilku innych uogólnień PLS-PCA w tym samym duchu). Ale może być wnikliwe, aby zobaczyć, w jaki sposób wyjaśnili problem. (2/3)

— Ryan Simmons

W przypadku śmierci tego linku pełny cytat to: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. „Kanoniczna częściowa regresja najmniejszych kwadratów i ciągła regresja mocy”. Journal of Chemometrics, 2001; 15: 85–100. doi.org/10.1002/… (3/3)

— Ryan Simmons

ah, ok, to i idą do nieskończoności, ale ich stosunek pozostaje . W każdym razie ścieżka ujemnej regresji grzbietu powinna znajdować się w (ujemnym) sektorze między wektorami PLS i PCA, tak aby ich rzut na elipsęznajduje się między punktami PLS i PCA. (norma przechodzenia w nieskończoność ma sens, ponieważ przechodzi w nieskończoność, więc ścieżka prowadzi dalej w dolnym prawym rogu, początkowo styczna do, ujemnego, PLS i ostatecznie do PCA)

λ^{*}

$\lambda^*$

1 + μ^{*}

$1+\mu^*$

\pm

$\pm$

s_{m a x}^{2}

$s_{max}^2$

| X β = 1 |

$|X\beta=1|$

μ

$\mu$

— Sextus Empiricus

Dodałoby to wizualizacji. Wyobrażam sobie trzy bieżące punkty ścieżki RR (gdzie dotykają się koła i elipsoidy) idące w dół w prawo i ostatecznie, w nieskończoności, koło i elipsoida powinien 'dotyk' w kierunku, w tym miejscu, w którym koło dotyka elipsoidy

| β |^{2} = t_{\infty}

$|\beta|^2=t_{\infty}$

| X (β - \hat{β}) |^{2} = R S S

$|X (\beta - \hat\beta)|^2 =RSS$

| β |^{2} = t_{p c a}

$|\beta|^2=t_{pca}$

| X β |^{2} = 1

$|X \beta|^2 =1$

— Sextus Empiryk

Granica estymacji regresji grzbietu „wariancji jednostkowej”, gdy

Interpretacja geometryczna

Porównanie do standardowego widoku regresji kalenicy

Jeśli chodzi o limitλ→∞λ→∞\lambda \to \infty

Dalsze uwagi dotyczące limituλ→∞λ→∞\lambda \to \infty

Jeśli chodzi o limit $\lambda \to \infty$

Dalsze uwagi dotyczące limitu $\lambda \to \infty$