Regresja grzbietu szacuje parametry w modelu liniowym według gdzie jest parametrem regularyzacji. Dobrze wiadomo, że często działa lepiej niż regresja OLS (z \ lambda = 0 ), gdy istnieje wiele skorelowanych predyktorów.Y = X β β λ = ( X ⊤ X + λ I ) - 1 X ⊤ Y , λ λ = 0
Twierdzenie o istnieniu regresji grzbietu mówi, że zawsze istnieje parametr taki, że błąd średniej kwadratowej jest ściśle mniejszy niż błąd średniej kwadratowej OLS szacowanie . Innymi słowy, optymalna wartość jest zawsze niezerowa. Najprawdopodobniej zostało to udowodnione po raz pierwszy w Hoerl i Kennard, 1970 i zostało powtórzone w wielu notatkach z wykładów, które znajduję w Internecie (np. Tutaj i tutaj ). Moje pytanie dotyczy założeń tego twierdzenia:
Czy są jakieś założenia dotyczące macierzy kowariancji ?
Czy są jakieś założenia dotyczące wymiarowości ?
W szczególności, czy twierdzenie jest nadal prawdziwe, jeśli predyktory są ortogonalne (tj. jest przekątna), a nawet jeśli ? I czy nadal jest to prawdą, jeśli istnieje tylko jeden lub dwa predyktory (powiedzmy jeden predyktor i przechwytywanie)?
Jeśli twierdzenie nie przyjmuje takich założeń i pozostaje prawdziwe nawet w tych przypadkach, to dlaczego regresja kalenicy jest zwykle zalecana tylko w przypadku skorelowanych predyktorów i nigdy (?) Nie jest zalecana dla prostej (tzn. Nie wielokrotnej) regresji?
Jest to związane z moim pytaniem dotyczącym ujednoliconego poglądu na skurcz: jaka jest relacja (jeśli występuje) między paradoksem Steina, regresją grzbietu i efektami losowymi w modelach mieszanych? , ale do tej pory brak odpowiedzi wyjaśniających ten punkt.