To interesujące pytanie. Zaskakujące jest, że można zrobić coś pod pewnymi założeniami, ale istnieje potencjalna utrata informacji o rezydualnej wariancji. To zależy od ile utracono.X
Rozważmy następującą wartość rozkładu pojedynczą o o o matrycy z ortonormalnych kolumny macierzą diagonalną o dodatniej wartości osobliwe w przekątnej i a macierz ortogonalna. Następnie kolumny tworzą ortonormalną podstawę dla przestrzeni kolumn i
jest wektorem współczynników dla rzutu na tę przestrzeń kolumny po rozwinięciu wX=UDVtU n × p D d 1 ≥ d 2 ≥ . . . ≥ d p > 0 V p × p U X Z = U t Y = D - 1 V t V D U t Y = D - 1 V t X t Y Y U Z XXUn×pDd1≥d2≥...≥dp>0Vp×pUX
Z=UtY=D−1VtVDUtY=D−1VtXtY
YUPodstawa kolumnyZe wzoru widzimy, że jest obliczeniowy ze znajomości i osiągalne.
ZXXtY
Ponieważ predyktor regresji grzbietu dla danego można obliczyć jako
widzimy, że współczynniki dla predyktora regresji grzbietu w podstawie kolumny wynoszą
Teraz przyjmujemy założenie dystrybucyjne, że ma wymiarową średnią i macierz kowariancji . Zatem ma wymiarową średnią i macierz kowariancji . Jeśli wyobrażamy sobie niezależnośćT = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1 D Z U Z = D ( D 2 + λ I ) -λ
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
UZ^=D(D2+λI)−1DZ.
Ynξσ2InZpUtξσ2IpYNew z takim samym rozkładem jak ( od tego momentu warunkowo na ) odpowiadający ma to samo dystrybucja jako i jest niezależna i
Tutaj trzecia równość następuje po ortogonalności i i czwarty fakt, że
YXZNew=UtYNewZE||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^U ma kolumny ortonormalne. Ilość jest błędem, o którym nie możemy uzyskać żadnych informacji, ale nie zależy też od . Aby zminimalizować błąd przewidywania po lewej stronie, musimy zminimalizować drugi termin po prawej stronie.
Err0λ
Według standardowego obliczenia
Tutaj jest znany jako efektywny stopień swobody regresji grzbietu z parametrem . Bezstronny estymator to
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
Łączymy to z (bezstronnym) estymatorem
z biorąc pod uwagę, że wiemy , które następnie musimy zminimalizować. Oczywiście można to zrobić tylko wtedy, gdy znamy lub mamy rozsądne domysły co do estymatora .
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
Szacowanie może być bardziej problematyczne. Można pokazać, że
Jeśli więc możliwe jest wybranie tak małej, że kwadratowe odchylenie może zostać zignorowane, możemy spróbować oszacować jako
Jeśli ta praca będzie zależy wiele na .σ2
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
λσ2σ^2=1p−d(λ)||Z−Z^||2.
X
Aby uzyskać szczegółowe informacje, zobacz sekcję 3.4.1 i rozdział 7 w języku ESL lub jeszcze lepiej rozdział 2 w GAM .