Niech będzie wyśrodkowaną macierzą predykcyjną n × p i rozważmy jej rozkład liczby pojedynczej X = U S V ⊤, gdzie S jest macierzą diagonalną z elementami diagonalnymi s i .Xn×pX=USV⊤Ssi
Dopasowanego wartości zwykłych najmniejszych kwadratów (OLS) regresji są podane y O L S = X P O L S = X ( X ⊤ X ) - 1 X ⊤ y = U U ⊤ Y . Dopasowanego wartości regresji grzbiet są podane r r i d g e = X β r i d g e = x ( x ⊤ X
y^OLS=XβOLS=X(X⊤X)−1X⊤y=UU⊤y.
Dopasowanego wartości regresji PCA (PCR) z
kskładników są podane
Y pCR=XPCβPCR=Uy^ridge=Xβridge=X(X⊤X+λI)−1X⊤y=Udiag{s2is2i+λ}U⊤y.
k gdzie jest
k jedynek poprzedzonych zerami.
y^PCR=XPCAβPCR=Udiag{1,…,1,0,…0}U⊤y,
k
Stąd możemy zobaczyć, że:
Jeśli wówczas Y R I d g e = r O l S .λ=0y^ridge=y^OLS
λ>0sis2i≈λ
kλ=0kλ=∞
Oznacza to, że regresję grzbietu można postrzegać jako „płynną wersję” PCR.
siX
Regresja grzbietu ma tendencję do osiągania lepszych wyników w praktyce (np. W celu uzyskania wyższej wydajności potwierdzonej krzyżowo)
λ→0y^ridge→y^OLSsi
Jednym z dobrych odniesień są elementy uczenia statystycznego , sekcja 3.4.1 „Regresja kalenicy”.
Zobacz także ten wątek: Interpretacja regulacji regularności grzbietu w regresji, a w szczególności odpowiedź @BrianBorchers.