+1 do ilustracji Glen_b i komentarza do statystyk w estymatorze Ridge. Chciałbym tylko dodać czysto matematyczny (algebra liniowa) pov do regresji Ridge'a, który odpowiada na pytania operacyjne 1) i 2).
Najpierw zauważ, że jest symetryczną dodatnią półpłynną macierzą - razy próbką macierzy kowariancji. Stąd ma rozkład własnyX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Ponieważ odwrócenie macierzy odpowiada odwróceniu wartości własnych, estymator OLS wymaga (zwróć uwagę, że ). Oczywiście działa to tylko wtedy, gdy wszystkie wartości własne są ściśle większe od zera, . Dla jest to niemożliwe; w przypadku jest to ogólnie prawdą - dzieje się tak, gdy zwykle interesuje nas wielokoliniowość .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Jako statystycy chcemy również wiedzieć, w jaki sposób małe zaburzenia w danych zmieniają szacunki. Oczywiste jest, że niewielka zmiana w dowolnym prowadzi do ogromnej zmienności jeśli jest bardzo mała.Xdi1/didi
Zatem regresja Ridge'a przesuwa wszystkie wartości własne dalej od zera jako
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
która ma teraz wartości własne . Dlatego wybranie dodatniego parametru kary powoduje, że macierz jest odwracalna - nawet w przypadku . W przypadku regresji Ridge'a niewielka zmienność danych nie ma już wyjątkowo niestabilnego wpływu na odwrócenie macierzy.
di+λ≥λ≥0p≫nX
Stabilność numeryczna jest związana ze zmniejszeniem do zera, ponieważ oba są konsekwencją dodania dodatniej stałej do wartości własnych: czyni ją bardziej stabilną, ponieważ małe zaburzenie w nie zmienia zbytnio odwrotności; zmniejsza się do wartości bliskiej ponieważ teraz termin jest mnożony przez co jest bliższe zeru niż rozwiązanie OLS z odwrotnymi wartościami własnymi .X0V−1X′y1/(di+λ)1/d