Wydaje się, że pytanie wymaga zademonstrowania, że regresja Ridge'a zmniejsza szacunki współczynnika do zera przy użyciu rozkładu widmowego. Rozkład widmowy można rozumieć jako łatwą konsekwencję rozkładu wartości osobliwych (SVD). Dlatego ten post zaczyna się od SVD. Wyjaśnia to w prosty sposób, a następnie ilustruje ważnymi aplikacjami. Następnie zapewnia żądaną (algebraiczną) demonstrację. (Algebra jest oczywiście identyczna z demonstracją geometryczną; jest po prostu ułożona w innym języku).
Oryginalne źródło tej odpowiedzi można znaleźć w notatkach z kursu regresji . Ta wersja poprawia drobne błędy.
Czym jest SVD
Dowolną macierz X , przy p ≤ n , można zapisać X = U D V ′ gdzien×pXp≤n
X=UDV′
n × pU jest macierzą .n×p
- Kolumny mają długość .1U1
- Kolumny są wzajemnie ortogonalne.U
- Są one nazywane główne komponenty z .X
jestmacierzą p × p .Vp×p
- Kolumny mają długość 1 .V1
- Kolumny są wzajemnie prostopadłe.V
- Sprawia to, że jest obrót o R p .VRp
jestdiagonalnąmacierzą p × p .D p×p
- Elementy ukośne nie są ujemne. Są to pojedyncze wartości z X .d11,d22,…,dppX
- Jeśli chcemy, możemy zamówić je od największego do najmniejszego.
Kryteria (1) i (2) twierdzą, że zarówno jak i V są matrycami ortonormalnymi . Można je starannie podsumować według warunkówUV
U′U=1p, V′V=1p.
W konsekwencji (że oznacza obrót), V V ′ = również 1 p . Zostanie to wykorzystane w poniższej pochodnej regresji Ridge.VVV′=1p
Co to dla nas robi
Może uprościć formuły. Działa to zarówno algebraicznie, jak i koncepcyjnie. Oto kilka przykładów.
Równania normalne
Rozważ regresję której, jak zwykle, ε są niezależne i identycznie rozmieszczone zgodnie z prawem, które ma zerowe oczekiwanie i skończoną wariancję σ 2 . Najmniej roztwór kwadratów przez zwykłą równań β = ( X ' X ) - 1 X ' Y . Zastosowanie SVD i uproszczenie powstałego bałaganu algebraicznego (co jest łatwe) zapewnia dobry wgląd:y=Xβ+εεσ2
β^=(X′X)−1X′y.
(X′X)−1X′=((UDV′)′(UDV′))−1(UDV′)′=(VDU′UDV′)−1(VDU′)=VD−2V′VDU′=VD−1U′.
Jedyna różnica między tym a polega na tym, że stosowane są odwrotności elementów D ! Innymi słowy, „równanie” y = X β rozwiązuje się przez „odwrócenie” X : ta pseudo-inwersja odwraca obroty U i V ′ (jedynie przez ich transpozycję) i cofa mnożenie (reprezentowane przez D ) oddzielnie w każdej zasadzie kierunek.X′=VDU′Dy=XβXUV′D
Dla odniesienia przyszłość zauważyć, że „obracać” przewidywany β są liniowe kombinacje „obracać” odpowiedzi U ' y . Współczynniki są odwrotnymi (dodatnimi) diagonalnymi elementami D , równymi d - 1 i i .V′β^U′yDd−1ii
Kowariancja szacunków współczynnika
Przypomnijmy, że kowariancja oszacowań jest Używając SVD, staje się to σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . Innymi słowy, kowariancja działa jak zmienna ortogonalna k , każda z wariancjami d 2 i i
Cov(β^)=σ2(X′X)−1.
σ2(VD2V′)−1=σ2VD−2V′.
k d2ii, które zostały obrócone w
.
Rk
Matryca Hat
H=X(X′X)−1X′.
H=(UDV′)(VD−1U′)=UU′.
Analiza własna (rozkład widmowy)
X′X=VDU′UDV′=VD2V′
XX′=UDV′VDU′=UD2U′,
- X′XXX′
- VX′X
- UXX′
SVD może diagnozować i rozwiązywać problemy kolinearności.
Zbliżanie regresorów
UDV′Uy
Regresja Ridge
XyXλ>0
β^R=(X′X+λ)−1X′y=(VD2V′+λ1p)−1VDU′y=(VD2V′+λVV′)−1VDU′y=(V(D2+λ)V′)−1VDU′y=V(D2+λ)−1V′VDU′y=V(D2+λ)−1DU′y.
β^D−1=D−2D(D2+λ)−1DD2/(D2+λ)λ>0
V′β^RU′yd−1iid2ii/(d2ii+λ)λβ^R
d−1ii