Dotyczy to wariancji
OLS zapewnia tzw. Najlepszy liniowy bezstronny estymator (NIEBIESKI) . Oznacza to, że jeśli weźmiesz jakikolwiek inny obiektywny estymator, będzie on miał większą wariancję niż rozwiązanie OLS. Dlaczego więc, u licha, powinniśmy brać pod uwagę cokolwiek innego?
Teraz sztuczką z regularyzacją, taką jak lasso lub grzbiet, jest dodanie z kolei pewnych odchyleń w celu zmniejszenia wariancji. Bo kiedy oszacować błąd predykcji jest to kombinacja trzech rzeczy :
E [ ( y- f^( x ) )2)] = Odchylenie [ f^( x ) ) ]2)+ Var [ f^( x ) ) ] + σ2)
Ostatnia część to błąd nieredukowalny, więc nie mamy nad tym kontroli. Stosując rozwiązanie OLS, błąd systematyczny wynosi zero. Ale może się zdarzyć, że drugi termin jest duży. Dobrym pomysłem może być (
jeśli chcemy dobre przewidywania ) dodanie pewnych stronniczości i, mam nadzieję, zmniejszenie wariancji.
Więc co to jest ? Jest to wariancja wprowadzona w oszacowaniach parametrów w twoim modelu. Model liniowy ma postać
y = X β + ϵ ,Var [ f^( x ) ) ]
W celu uzyskania rozwiązania OLS rozwiązujemy problem minimalizacji
arg min β | | y - X β | | 2
To zapewnia rozwiązanie
β OLS = ( X , T X ) - 1 X t y
problem minimalizacji regresji grzbiet jest podobna:
Arg min β | | y - X β | |
y = X β+ ϵ ,ε ~ N( 0 , σ2)ja)
argminβ| | y - X β| |2)
β^OLS= ( XT.X )- 1XT.y
teraz roztwór staje
β kalenicy = ( X t X + λ I ) - 1 X t y
więc dodawania tego
X I (zwany grzebień) na przekątnej macierzy że inwertowany. Efekt ten jest w macierzy
X t X jest to, że „
ciągnie” wyznacznikiem macierzy od zera. Zatem po odwróceniu nie otrzymujesz dużych wartości własnych. Ale to prowadzi do kolejnego interesującego faktu, mianowicie, że wariancja oszacowań parametrów staje się niższa.
argminβ| | y - X β| |2)+ λ | | β| |2)λ > 0
β^Grzbiet= ( XT.X +λI)- 1XT.y
λ IXT.X
Nie jestem pewien, czy mogę udzielić bardziej jednoznacznej odpowiedzi. Wszystko to sprowadza się do macierzy kowariancji dla parametrów w modelu i wielkości wartości w tej macierzy kowariancji.
Jako przykład wziąłem regresję grzbietu, ponieważ jest to o wiele łatwiejsze do wyleczenia. Lasso jest znacznie trudniejsze i wciąż trwają badania nad tym tematem.
Te slajdy zawierają więcej informacji, a ten blog zawiera również pewne istotne informacje.
EDYCJA: Co mam na myśli, że dodając grzbiet wyznacznik jest „ odciągany ” od zera?
XT.X
det ( XT.X -tI) = 0
tdet ( XT.X +λI- t ja) = 0
det ( XT.X -(t-λ)I) = 0
( t - λ )tjatja+ λλ
Oto kod R ilustrujący to:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Co daje wyniki:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Tak więc wszystkie wartości własne zostają zwiększone o dokładnie 3.
Możesz to ogólnie udowodnić, używając twierdzenia o okręgu Gershgorina . Tam środkami okręgów zawierających wartości własne są elementy ukośne. Zawsze możesz dodać „tyle” do elementu ukośnego, aby wszystkie koła w dodatniej rzeczywistej półpłaszczyźnie. Ten wynik jest bardziej ogólny i nie jest potrzebny do tego.