Zrozumienie negatywnej regresji kalenicy

Szukam literatury na temat negatywnej regresji kalenicy .

W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających $\lambda$ we wzorze

\hat{β} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y .

$\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.$ Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako ograniczenie, jako wcześniejsze Bayesa ... ale czuję się zagubiony w wersji negatywnej z tylko powyższą formułą. To się przydaje do tego, co robię, ale nie potrafię tego jasno zinterpretować.

Czy znasz jakiś poważny tekst wprowadzający o grzebieniu negatywnym? Jak można to interpretować?

regression regularization ridge-regression

— Benoit Sanchez
źródło

Nie znam żadnego tekstu wprowadzającego, który mówi o tym, ale to źródło może być pouczające, szczególnie dyskusja na dole strony 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents

— Ryan Simmons

W przypadku, gdy ten link umrze w przyszłości, pełny cytat brzmi: Björkström, A. i Sundberg, R. „Ogólny pogląd na regresję kontinuum”. Scandinavian Journal of Statistics, 26: 1 (1999): s. 17–30

— Ryan Simmons

Wielkie dzięki. Daje to jasną interpretację grzbietu za pomocą CR, gdy

(Największa wartość własna macierzy kowariancji). Wciąż szukam interpretacji z

...

λ < - λ_{1}

$\lambda<-\lambda_1$

λ > - λ_{1}

$\lambda>-\lambda_1$

— Benoit Sanchez

Należy zauważyć w tym rozwoju regresji kalenicowej z regularyzacji Tichonowa, że regularyzacja Tichonowa

staje się

dla regresji kalenicowej. Następnie

jest zwykle zastępuje

. Jedynym sposobem uczynienia tego ujemnym jest wyobrażenie

, tj. Wielokrotność

Γ^{T} Γ

$\Gamma^{T} \Gamma$

α^{2} I

$\alpha^2 I$

α^{2}

$\alpha^2$

λ

$\lambda$

α

$\alpha$

. OK, a teraz co? Gdzie chcesz z tym iść?

i = \sqrt{- 1}

$i=\sqrt{-1}$

— Carl

Wspomniana negatywna grań: stats.stackexchange.com/questions/328630/... z niektórymi linkami

— kjetil b halvorsen 15.04.2018

Oto geometryczna ilustracja tego, co dzieje się z negatywnym grzbietem.

{\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y

$\hat{\boldsymbol\beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}\mathbf X^\top\mathbf y$

L_{λ} = ‖ y - X β ‖^{2} + λ ‖ β ‖^{2} .

$\mathcal L_\lambda = \|\mathbf y - \mathbf X\boldsymbol\beta\|^2 + \lambda \|\boldsymbol\beta\|^2.$

λ \in [0, \infty)

$\lambda\in[0,\infty)$

Rozważmy teraz co się dzieje, gdy , gdzie to największa pojedyncza wartość . W przypadku bardzo dużych ujemnych lambd jest oczywiście bliski zeru. Kiedy lambda zbliża się do , termin otrzymuje jedną wartość pojedynczą zbliżającą się do zera, co oznacza, że odwrotność ma jedną wartość osobliwą zbliżoną do minus nieskończoności. Ta pojedyncza wartość odpowiada pierwszemu głównemu składnikowi , więc w limicie dostajemy wskazując w kierunku PC1, ale z wartością bezwzględną rosnącą do nieskończoności. $\lambda\in(-\infty, -s^2_\max)$ $s_\mathrm{max}$ $\mathbf X$ $\hat{\boldsymbol\beta}_\lambda$ $-s^2_\max$ $(\mathbf X^\top \mathbf X + \lambda \mathbf I)$ $\mathbf X$ $\hat{\boldsymbol\beta}_\lambda$

Naprawdę fajne jest to, że można narysować go na tej samej figurze w ten sam sposób: bety są podawane przez punkty, w których koła dotykają elips od środka :

Kiedy , stosuje się podobną logikę, pozwalającą kontynuować ścieżkę grzbietu po drugiej stronie estymatora OLS. Teraz koła dotykają elips z zewnątrz. W limit, beta zbliża się do kierunku PC2 (ale dzieje się to daleko poza tym szkicem): $\lambda\in(-s^2_\mathrm{min},0]$

Zakres jest czymś w rodzaju luki energetycznej : estymatory nie żyją na tej samej krzywej. $(-s^2_\mathrm{max}, -s^2_\mathrm{min})$

AKTUALIZACJA: W komentarzach @MartinL wyjaśnia, że dla strata nie ma minimum, ale maksimum. I to maksimum jest podane przez . Dlatego ta sama geometryczna konstrukcja z dotykiem koła / elipsy nadal działa: wciąż szukamy punktów o zerowym gradiencie. Kiedy , strata ma minimum i jest wyrażane przez , dokładnie tak jak normalnie case. $\lambda<-s^2_\mathrm{max}$ $\mathcal L_\lambda$ $\hat{\boldsymbol\beta}_\lambda$ $-s^2_\mathrm{min}<\lambda\le 0$ $\mathcal L_\lambda$ $\hat{\boldsymbol\beta}_\lambda$ $\lambda>0$

Ale kiedy , strata nie ma wartości maksymalnej ani minimalnej; odpowiada punktowi siodłowemu. To wyjaśnia „lukę energetyczną”. $-s^2_\mathrm{max}<\lambda<-s^2_\mathrm{min}$ $\mathcal L_\lambda$ $\hat{\boldsymbol\beta}_\lambda$

naturalnie wynika z określonego ograniczonym regresji grzbiet znajduje się granica „jednostkową wariancją” regresji grzbiet estymatora gdy . Jest to związane z tym, co znane jest w literaturze chemometrycznej jako „regresja kontinuum”, patrz moja odpowiedź w powiązanym wątku. $\lambda\in(-\infty, -s^2_\max)$ $\lambda\to\infty$

można potraktować w taki sam sposób, jak : utrata czynności pozostanie takie same i estymator grzbiet zapewnia jego minimum. $\lambda\in(-s^2_\mathrm{min},0]$ $\lambda>0$

— ameba
źródło

Dziękuję za ciekawe wykresy. Gdy , przedstawione rozwiązanie jest globalnym maksimum funkcji kosztu, a nie globalnym minimum. Podobnie, gdy , wykreślony punkt powinien być punktem siodłowym funkcji kosztu.

λ < - s_{max}^{2}

$\lambda < -s_\text{max}^2$

- s_{max}^{2} < λ < 0

$-s_\text{max}^2 < \lambda < 0$

— Martin L

Uwzględnij tylko kwadratowe terminy w funkcji kosztu. Można je zapisać jako Niech , wtedy macierz w nawiasach ma tylko ujemne wartości własne. Niech , a macierz ma zarówno dodatnie, jak i ujemne wartości własne. Te wartości własne wpływają na to, czy punkt jest punktem siodłowym, minimum lub maksimum funkcji kosztu.

β^{T} (X^{T} X + λ I) β .

$\beta^T (X^T X + \lambda I) \beta.$

λ < - s_{max}^{2}

$\lambda < - s_\text{max}^2$

- s_{max}^{2} < λ < 0

$- s_\text{max}^2 < \lambda < 0$

— Martin L

To bardzo pomocne, wielkie dzięki. Dokonałem aktualizacji mojej odpowiedzi.

— ameba

Dziękuję Ci. W szczególności dla uświadomienia sobie, że punkt siodłowy obowiązuje tylko wtedy, gdy . Gdy , rozwiązanie jest rzeczywiście wciąż globalnym minimum, od tego czasu jest zdecydowanie dodatnia. Mój wcześniejszy komentarz był zatem częściowo niepoprawny.

- s_{max}^{2} < λ < - s_{min}^{2}

$-s_\text{max}^2 < \lambda < - s_\text{min}^2$

λ > - s_{min}^{2}

$\lambda > -s_\text{min}^2$

X^{T} X + λ I

$X^T X + \lambda I$

— Martin L