Dlaczego regresja Ridge'a działa dobrze w obecności wielokoliniowości?

Uczę się o regresji grzbietu i wiem, że regresja kalenicy działa lepiej w obecności wielokoliniowości. Zastanawiam się, dlaczego to prawda? Odpowiedź intuicyjna lub matematyczna byłaby satysfakcjonująca (oba typy odpowiedzi byłyby jeszcze bardziej satysfakcjonujące).

Wiem też, że zawsze można uzyskać, ale jak dobrze regresja kalenicy działa w obecności dokładnej kolinearności (jedna zmienna niezależna jest funkcją liniową innej)? $\hat{\beta}$

multicollinearity ridge-regression

— TrynnaDoStat
źródło

Jeśli chodzi o twoje drugie pytanie: jeśli masz dokładną kolinearność, możesz po prostu usunąć jedną ze zmiennych. Nie potrzebujesz regresji grzbietu.

— Peter Flom - Przywróć Monikę

Rozważ prosty przypadek 2 zmiennych predykcyjnych ( , ). Jeśli w obu predyktorach nie ma kolinearności lub jej rozkład jest niewielki, wówczas dopasowujemy płaszczyznę do danych ( $x_1$ $x_2$ $y$ to trzeci wymiar) i często istnieje bardzo wyraźna „najlepsza” płaszczyzna. Ale w przypadku kolinearności związek jest tak naprawdę linią przechodzącą przez trójwymiarową przestrzeń z rozrzuconymi wokół niej danymi. Ale procedura regresji próbuje dopasować płaszczyznę do linii, więc istnieje nieskończona liczba płaszczyzn, które idealnie przecinają się z tą linią, która płaszczyzna jest wybrana, zależy od wpływowych punktów w danych, zmień tylko jeden z tych punktów i „najlepsza” płaszczyzna dopasowania dość się zmienia. To, co robi regresja grzbietu, polega na pociągnięciu wybranej płaszczyzny w kierunku prostszych / zdrowszych modeli (wartości odchylenia w kierunku 0). Pomyśl o gumce od początku (0,0,0) do płaszczyzny, która pociąga płaszczyznę w kierunku 0, podczas gdy dane odciągną ją, aby uzyskać miły kompromis.

— Greg Snow
źródło

@Trynna, są zdjęcia ilustrujące to, co Greg powiedział o problemie kolinearności.

— ttnphns

To bardzo dobre geometryczne wyjaśnienie, dlaczego wielokoliniowość jest problemem w regresji OLS! Ale wciąż nie rozumiem, dlaczego przyciągnięcie samolotu do miejsca początkowego rozwiązuje problem.

— TrynnaDoStat

@TrynnaDoStat, Głównym problemem jest zmienność szacunków, przy wielokolonowości niewielka zmiana w pojedynczym punkcie danych może gwałtownie zmienić szacunki współczynników (bez uprzedzeń). Po odchyleniu w kierunku 0 nie ma dużych zmian w szacunkach współczynników (ponieważ ta gumka pociąga je w kierunku 0) z niewielką zmianą w pojedynczym punkcie danych, zmniejszając zmienność.

— Greg Snow

Dzięki @ttnphns za link do zdjęć: bez niego uzyskanie odpowiedzi było dość trudne. Teraz odpowiedź Grega jest jasna i to, co potrzebowałem, aby zrozumieć tę linię w ESLII (wydanie 2): „szalenie duży dodatni współczynnik na jedną zmienną można anulować przez podobnie duży ujemny współczynnik na jego skorelowanego kuzyna. Narzucając ograniczenie wielkości na współczynniki ten problem został złagodzony. ”

— Tommaso Guerrini