Dlaczego ocena grzbietu staje się lepsza niż OLS poprzez dodanie stałej do przekątnej?


59

Rozumiem, że oszacowanie regresji grzbietu to która minimalizuje resztkową sumę kwadratu i kara za rozmiarββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

Jednak nie do końca rozumiem znaczenie faktu, że βridge różni się od βOLS , dodając jedynie małą stałą do przekątnej XX . W rzeczy samej,

βOLS=(XX)1Xy
  1. Moja książka wspomina, że ​​dzięki temu szacunek jest bardziej stabilny liczbowo - dlaczego?

  2. Czy stabilność numeryczna jest związana ze skurczem do 0 szacunku grzbietu, czy to tylko zbieg okoliczności?

Odpowiedzi:


76

W regresji niezenalizowanej często można uzyskać grzbiet * w przestrzeni parametrów, w którym wiele różnych wartości wzdłuż grzbietu spełnia te same lub prawie równie dobre kryteria kryterium najmniejszych kwadratów.

* (przynajmniej jest to funkcja w funkcji prawdopodobieństwa - w rzeczywistości są to doliny $ w kryterium RSS, ale nadal będę ją nazywać grzebieniem, ponieważ wydaje się to konwencjonalne - lub nawet, jak wskazuje Alexis) w komentarzach mógłbym nazwać to thalweg , będącym odpowiednikiem grzbietu doliny)

W przypadku wystąpienia krawędzi w kryterium najmniejszych kwadratów w przestrzeni parametrów, kara, którą otrzymujesz przy regresji grzbietu, usuwa się z tych krawędzi, przesuwając kryterium w górę, gdy parametry odchodzą od źródła:

wprowadź opis zdjęcia tutaj
[ Jaśniejszy obraz ]

Na pierwszym wykresie duża zmiana wartości parametrów (wzdłuż grzbietu) powoduje niewielką zmianę w kryterium RSS. Może to powodować niestabilność numeryczną; jest bardzo wrażliwy na małe zmiany (np. drobną zmianę wartości danych, nawet błąd obcięcia lub zaokrąglenia). Szacunki parametrów są prawie idealnie skorelowane. Możesz uzyskać oszacowania parametrów, które są bardzo duże.

Natomiast podniesienie rzeczy, którą regresja grzbietu minimalizuje (poprzez dodanie kary ), gdy parametry są dalekie od 0, niewielkie zmiany warunków (takie jak mały błąd zaokrąglenia lub obcięcia) nie mogą spowodować gigantycznych zmian w wynikowym szacunki. Kara umowna powoduje skurczenie się do zera (co powoduje pewne odchylenie). Niewielka ilość stronniczości może spowodować znaczną poprawę wariancji (poprzez wyeliminowanie tego grzbietu).L2

Niepewność szacunków jest zmniejszona (błędy standardowe są odwrotnie powiązane z drugą pochodną, ​​która jest powiększana przez karę).

Korelacja w oszacowaniach parametrów jest zmniejszona. Nie otrzymasz teraz oszacowań parametrów, które są bardzo duże, jeśli RSS dla małych parametrów nie byłby znacznie gorszy.


4
Ta odpowiedź naprawdę pomaga mi zrozumieć skurcz i stabilność liczbową. Jednak nadal nie jestem pewien, w jaki sposób „dodanie małej stałej do ” osiąga te dwie rzeczy. XX
Heisenberg

4
Dodanie stałej do przekątnej * jest tym samym, co dodanie okrągłej paraboloidy wyśrodkowanej na do RSS (z wynikiem pokazanym powyżej - „podciąga” od zera - eliminując grzbiet). * (niekoniecznie mały, zależy to od tego, jak na to spojrzysz i ile dodałeś)0
Glen_b

6
Glen_b antonim „grzbietu” w języku angielskim, którego szukasz (ścieżka / zakręt wzdłuż dna doliny), to thalweg . O czym dowiedziałem się dwa tygodnie temu i po prostu uwielbiam. To nawet nie brzmi jak angielskie słowo! : D
Alexis,

5
@Alexis Bez wątpienia byłoby to przydatne słowo, więc dziękuję za to. Prawdopodobnie nie brzmi po angielsku, ponieważ jest to niemieckie słowo (w rzeczywistości thal jest tym samym „thal”, co w „ Neanderthal ” = „Neander valley”, a weg = „way”). [Tak jak chciałem, chciałem „grzbietu” nie dlatego, że nie mogłem wymyślić, jak to nazwać, ale dlatego, że ludzie nazywają to grzbietem, niezależnie od tego, czy patrzą na prawdopodobieństwo, czy na RSS, a ja tłumaczyłem, że chcę podążać konwencja, choć wydaje się dziwna. Thalweg byłby doskonałym wyborem dla właściwego słowa, gdybym nie przestrzegał dziwnej konwencji konwencji.]
Glen_b

4
X zbliża się do macierzy, która nie ma pełnej rangi (a zatem X'X staje się prawie pojedyncza) dokładnie wtedy , gdy prawdopodobieństwo pojawienia się grzbietu. Grzbiet jest bezpośrednią konsekwencją prawie liniowej zależności między kolumnami , co sprawia, że s (prawie) zależy liniowo. Xβ
Glen_b

28

+1 do ilustracji Glen_b i komentarza do statystyk w estymatorze Ridge. Chciałbym tylko dodać czysto matematyczny (algebra liniowa) pov do regresji Ridge'a, który odpowiada na pytania operacyjne 1) i 2).

Najpierw zauważ, że jest symetryczną dodatnią półpłynną macierzą - razy próbką macierzy kowariancji. Stąd ma rozkład własnyXXp×pn

XX=VDV,D=[d1dp],di0

Ponieważ odwrócenie macierzy odpowiada odwróceniu wartości własnych, estymator OLS wymaga (zwróć uwagę, że ). Oczywiście działa to tylko wtedy, gdy wszystkie wartości własne są ściśle większe od zera, . Dla jest to niemożliwe; w przypadku jest to ogólnie prawdą - dzieje się tak, gdy zwykle interesuje nas wielokoliniowość .(XX)1=VD1VV=V1di>0pnnp

Jako statystycy chcemy również wiedzieć, w jaki sposób małe zaburzenia w danych zmieniają szacunki. Oczywiste jest, że niewielka zmiana w dowolnym prowadzi do ogromnej zmienności jeśli jest bardzo mała.Xdi1/didi

Zatem regresja Ridge'a przesuwa wszystkie wartości własne dalej od zera jako

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
która ma teraz wartości własne . Dlatego wybranie dodatniego parametru kary powoduje, że macierz jest odwracalna - nawet w przypadku . W przypadku regresji Ridge'a niewielka zmienność danych nie ma już wyjątkowo niestabilnego wpływu na odwrócenie macierzy.di+λλ0pnX

Stabilność numeryczna jest związana ze zmniejszeniem do zera, ponieważ oba są konsekwencją dodania dodatniej stałej do wartości własnych: czyni ją bardziej stabilną, ponieważ małe zaburzenie w nie zmienia zbytnio odwrotności; zmniejsza się do wartości bliskiej ponieważ teraz termin jest mnożony przez co jest bliższe zeru niż rozwiązanie OLS z odwrotnymi wartościami własnymi .X0V1Xy1/(di+λ)1/d


2
Te odpowiedzi w sposób zadowalający odpowiadają algebrze mojego pytania! Wraz z odpowiedzią Glen_b zawiera pełne wyjaśnienie problemu.
Heisenberg

17

Demonstracja Glen_b jest cudowna. Dodałbym tylko, że oprócz dokładnej przyczyny problemu i opisu tego, jak działa kwadratowa regresja penalizowana, istnieje podstawowa kwestia, że ​​penalizacja ma netto efekt zmniejszenia współczynników innych niż przecięcie w kierunku zera. Zapewnia to bezpośrednie rozwiązanie problemu nadmiernego dopasowania nieodłącznie związanego z większością analiz regresji, gdy wielkość próby nie jest ogromna w stosunku do szacowanej liczby parametrów. Prawie każda kara w kierunku zera w przypadku przechwytywania poprawi dokładność predykcyjną w stosunku do modelu bez kary.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.