- Jeśli nasz okres kary będzie nieskończony dla każdego innego niż , więc to otrzymamy. Nie ma innego wektora, który dałby nam skończoną wartość funkcji celu.β β = 0λ→∞ββ=0
(Aktualizacja: proszę zobaczyć odpowiedź Glen_b. To nie jest właściwy historyczny powód!)
- Wynika to z rozwiązania regresji grzbietu w notacji macierzowej. Rozwiązaniem okazuje się być
Termin dodaje „grzbiet” do głównej przekątnej i gwarantuje, że uzyskana macierz jest odwracalna. Oznacza to, że w przeciwieństwie do OLS, zawsze znajdziemy rozwiązanie.λI
β^=(XTX+λI)−1XTY.
λI
Regresja kalenicy jest przydatna, gdy predyktory są skorelowane. W tym przypadku OLS może dawać dzikie wyniki z ogromnymi współczynnikami, ale jeśli zostaną ukarane, możemy uzyskać znacznie bardziej rozsądne wyniki. Ogólnie dużą zaletą regresji kalenicowej jest to, że rozwiązanie zawsze istnieje, jak wspomniano powyżej. Dotyczy to nawet przypadku, w którym , dla którego OLS nie może zapewnić (unikalnego) rozwiązania.n<p
Regresja grzbietu jest również wynikiem, gdy normalny przełożony zostanie umieszczony na wektorze .β
Oto bayesowskie podejście do regresji grzbietu: Załóżmy, że nasz poprzedni dla to . Zatem ponieważ [z założenia] mamy
β ∼ N ( 0 , σ 2β(Y|X,β)∼N(Xβ,σ2In)β∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
Znajdźmy tryb tylny (moglibyśmy również spojrzeć na średnią tylną lub inne rzeczy, ale w tym celu przyjrzyjmy się trybowi, tj. Najbardziej prawdopodobnej wartości). Oznacza to, że chcemy
co jest równoważne z
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
ponieważ jest ściśle monotoniczny, a to z kolei jest równoważne
logminβ∈Rp||y−Xβ||2+λβTβ
który powinien wyglądać znajomo.
Widzimy zatem, że jeśli umieścimy normalny pierwszeństwo ze średnią 0 i wariancją na naszym wektorze , wartość która maksymalizuje tył jest estymatorem grzbietu. Zauważ, że traktuje to bardziej jako parametr częsty, ponieważ nie ma na nim wcześniejszego parametru, ale nie jest znane, więc nie jest to w pełni bayesowski.σ2λββσ2
Edycja: zapytałeś o przypadek, w którym . Wiemy, że hiperpłaszczyzna w jest zdefiniowana przez dokładnie punktów. Jeśli prowadzimy regresję liniową, a to dokładnie interpolujemy nasze dane i otrzymujemy . Jest to rozwiązanie, ale jest okropne: nasza wydajność w zakresie przyszłych danych najprawdopodobniej będzie fatalna. Załóżmy teraz, że : nie ma już unikalnej hiperpłaszczyzny zdefiniowanej przez te punkty. Możemy zmieścić wiele hiperpłaszczyzn, każda z zerową sumą kwadratów.n<pRppn=p||y−Xβ^||2=0n<p
Bardzo prosty przykład: załóżmy, że . Następnie uzyskamy linię między tymi dwoma punktami. Załóżmy teraz, że ale . Wyobraź sobie samolot z tymi dwoma punktami. Możemy obrócić tę płaszczyznę bez zmiany faktu, że znajdują się w niej te dwa punkty, więc istnieje niezliczona ilość wszystkich modeli z idealną wartością naszej funkcji celu, więc nawet poza kwestią nadmiernego dopasowania nie jest jasne, który wybrać.n=p=2n=2p=3
Jako komentarz końcowy (zgodnie z sugestią @ Gunga), LASSO (z zastosowaniem kary ) jest powszechnie stosowany w przypadku problemów o dużych wymiarach, ponieważ automatycznie dokonuje wyboru zmiennych (ustawia niektóre ). Co ciekawe, okazuje się, że LASSO odpowiada znalezieniu trybu tylnego przy użyciu podwójnego wykładniczego (aka Laplace'a) przed wektorem . LASSO ma także pewne ograniczenia, takie jak nasycanie predyktorami i niekoniecznie obchodzenie się z grupami skorelowanych predyktorów w idealny sposób, więc elastyczna siatka (wypukła kombinacja kar i ) może zostać wykorzystana.L1βj=0βnL1L2