Jest to problem, 3,23 , na stronie 97 w Hastie wsp. Elementy Statistical Learning , 2. wyd. (Piąty druk) .
Kluczem do tego problemu jest dobre zrozumienie zwykłych najmniejszych kwadratów (tj. Regresji liniowej), w szczególności ortogonalności dopasowanych wartości i reszt.
Lemat ortogonalności : NiechX być n×p matryca projektowa, y wektor odpowiedzi i β(prawdziwe) parametry. ZarozumiałyX szacuje OLS na pełną pozycję (co będziemy przez cały czas) β są β^=(XTX)−1XTy. Dopasowane wartości toy^=X(XTX)−1XTy. Następnie⟨y^,y−y^⟩=y^T(y−y^)=0. Oznacza to, że dopasowane wartości są ortogonalne względem reszt. Wynika to późniejXT.( y-y^) =XT.y-XT.X(XT.X)- 1XT.y=XT.y-XT.y= 0.
Teraz pozwól xjot być wektorem kolumny takim, że xjot jest jotkolumna z X. Zakładane warunki to:
- 1N.⟨xjot,xjot⟩ = 1 dla każdego jot, 1N.. Y,y⟩=1,
- 1N⟨xj,1p⟩=1N⟨y,1p⟩=0 gdzie 1p oznacza wektor jedności długości p, i
- 1N|⟨xj,y⟩|=λ dla wszystkich j.
Zwróć uwagę, że w szczególności ostatnie zdanie lematu ortogonalności jest identyczne z⟨xj,y−y^⟩=0 dla wszystkich j.
Korelacje są ze sobą powiązane
Teraz, u(α)=αXβ^=αy^. Więc,
⟨xj,y−u(a)⟩=⟨xj,(1−α)y+αy−αy^⟩=(1−α)⟨xj,y⟩+α⟨xj,y−y^⟩,
a drugi termin po prawej stronie jest równy zero przez
lemat ortogonalności , więc
1N|⟨xj,y−u(α)⟩|=(1−α)λ,
zgodnie z życzeniem. Bezwzględna wartość korelacji jest sprawiedliwa
ρ^j(α)=1N|⟨xj,y−u(α)⟩|1N⟨xj,xj⟩−−−−−−−−√1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√=(1−α)λ1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√
Uwaga : prawa strona powyżej jest niezależna odj a licznik jest taki sam jak kowariancja, ponieważ przyjęliśmy, że wszystkie xji y są wyśrodkowane (w szczególności nie jest konieczne odejmowanie średniej).
Jaki jest sens? Tak jakαzwiększa wektor odpowiedzi jest modyfikowany w taki sposób, że zbliża się do rozwiązania ( ograniczonego! ) rozwiązania najmniejszych kwadratów uzyskanego z włączenia tylko pierwszegopparametry w modelu. To jednocześnie modyfikuje oszacowane parametry, ponieważ są one prostymi produktami wewnętrznymi predyktorów z (zmodyfikowanym) wektorem odpowiedzi. Modyfikacja ma jednak specjalną formę. Utrzymuje (wielkość) korelacji między predyktorami a zmodyfikowaną odpowiedzią w tym samym czasie w całym procesie (nawet jeśli zmienia się wartość korelacji). Pomyśl o tym, co robi to geometrycznie, a zrozumiesz nazwę procedury!
Jawna forma (absolutnej) korelacji
Skupmy się na wyrażeniu w mianowniku, ponieważ licznik jest już w wymaganej formie. Mamy
⟨y−u(α),y−u(α)⟩=⟨(1−α)y+αy−u(α),(1−α)y+αy−u(α)⟩.
Zastępowanie w u(α)=αy^ i używając liniowości wewnętrznego produktu, otrzymujemy
⟨y−u(α),y−u(α)⟩=(1−α)2⟨y,y⟩+2α(1−α)⟨y,y−y^⟩+α2⟨y−y^,y−y^⟩.
Obseruj to
- ⟨y,y⟩=N z założenia
- ⟨y,y−y^⟩=⟨y−y^,y−y^⟩+⟨y^,y−y^⟩=⟨y−y^,y−y^⟩, poprzez zastosowanie lematu ortogonalności (jeszcze raz) do drugiego wyrażenia w środku; i,
- ⟨y−y^,y−y^⟩=RSS zgodnie z definicją.
Podsumowując, zauważysz, że otrzymamy
ρ^j(α)=(1−α)λ(1−α)2+α(2−α)NRSS−−−−−−−−−−−−−−−−−√=(1−α)λ(1−α)2(1−RSSN)+1NRSS−−−−−−−−−−−−−−−−−−−−−√
Podsumowując, 1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0 i jasne jest, że ρ^jot( α ) zmniejsza się monotonicznie α i ρ^jot( α ) ↓ 0 tak jak α ↑ 1.
Epilog : Skoncentruj się na pomysłach tutaj. Tak naprawdę jest tylko jeden. Ortogonalności lemat ma prawie wszystkie prace dla nas. Reszta to tylko algebra, notacja i umiejętność wykorzystania tych dwóch ostatnich do pracy.