Czy istnieje intuicyjne wyjaśnienie, dlaczego wielokoliniowość stanowi problem w regresji liniowej?


85

Wiki omawia problemy, które powstają, gdy wielokoliniowość jest problemem regresji liniowej. Podstawowym problemem jest to, że wielokoliniowość powoduje niestabilne oszacowanie parametrów, co bardzo utrudnia ocenę wpływu zmiennych niezależnych na zmienne zależne.

Rozumiem techniczne przyczyny problemów (może nie być w stanie odwrócić , źle warunkowane itp.), Ale szukam bardziej intuicyjnego (być może geometrycznego?) Wyjaśnienia tego problemu.XXXX

Czy istnieje geometryczna lub może inna forma łatwego do zrozumienia wyjaśnienia, dlaczego wielokoliniowość jest problematyczna w kontekście regresji liniowej?


4
Naprawdę świetne pytanie. Najlepszym sposobem na zrozumienie czegoś jest wiele wyjaśnień.
Tal Galili,

1
Zobacz także powiązane pytanie i objaśnienia wizualne stats.stackexchange.com/q/70899/3277
ttnphns

Odpowiedzi:


89

Rozważ najprostszy przypadek, w którym jest regresowany względem i a i są wysoce dodatnio skorelowane. To efekt w jest trudna do odróżnienia od efektu na , ponieważ każdy wzrost wydaje się być związany ze wzrostem .YXZXZXYZYXZ

Innym sposobem na to jest rozważenie równania. Jeśli napiszemy , wówczas współczynnik jest wzrostem dla każdego wzrostu jednostki przy utrzymaniu stałejAle w praktyce często niemożliwe jest utrzymanie stałej a dodatnia korelacja między i oznacza, że ​​wzrostowi jednostkowemu w towarzyszy zwykle pewien wzrost w tym samym czasie.Y=b0+b1X+b2Z+eb1YXZZXZXZ

Podobne, ale bardziej skomplikowane wyjaśnienie dotyczy innych form wielokoliniowości.


20
+1 Wyjątkowo patologiczny przypadek, w którym uwypukla to dalej. i byłyby nie do odróżnienia. X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv,

1
+1 Podoba mi się ta odpowiedź, ponieważ jednym z najczęstszych pytań jest dlaczego i . Wnioskowanie musi uwzględniać realistyczne dane wejściowe. b1>0b2<0
muratoa,

29

Kiedyś jadłem sushi i pomyślałem, że może to być dobra intuicyjna prezentacja źle uwarunkowanych problemów. Załóżmy, że chcesz pokazać komuś samolot za pomocą dwóch drążków dotykających jego podstaw.

Prawdopodobnie trzymałbyś kije prostopadle do siebie. Efekt jakiegokolwiek drżenia rąk na samolocie powoduje, że kołysze się nieco wokół tego, co chciałeś pokazać ludziom, ale po obserwowaniu cię przez jakiś czas mają dobre pojęcie o tym, jaki samolot zamierzasz pokazać.

Powiedzmy jednak, że zbliżasz końce pałeczek do siebie i obserwuj, jak drżą ci ręce. Samolot, który utworzy, będzie o wiele bardziej szalony. Twoi odbiorcy będą musieli dłużej oglądać, aby dowiedzieć się, jaki samolot próbujesz pokazać.


+1 Myślę, że to najbardziej bezpośrednio odpowiada na pytanie. Ponieważ chociaż wielokoliniowość wpływa na interpretację. Dlaczego jest to problem, imho to stabilność szacunków.
muratoa,

+1 Za opublikowanie tego komentarza (i tylko tego komentarza w historii Stackoverflow) pod nazwą użytkownika Snackrifice.
stackoverflax

19

Podejście geometryczny jest rozważenie najmniejszych kwadratów projekcję na podprzestrzeni objętej przez .YX

Powiedz, że masz model:

E[Y|X]=β1X1+β2X2

Nasza przestrzeń szacunkowa jest płaszczyzną wyznaczoną przez wektory i a problemem jest znalezienie współrzędnych odpowiadających które wektor , rzut na najmniejszą kwadrat na tę płaszczyznę.X1X2(β1,β2)Y^Y

Załóżmy teraz, że , tzn. Są one współliniowe. Następnie podprzestrzeń określona przez i jest tylko linią i mamy tylko jeden stopień swobody. Nie możemy więc ustalić dwóch wartości i zgodnie z pytaniem.X1=2X2X1X2β1β2


2
Głosowałem dawno temu, ale ponownie przeczytałem twoją odpowiedź, przypominając mi, że zawsze lubiłem Plane Answers to Complex Questions od Christensen ( j.mp/atRp9w ).
chl

@chl: fajnie, na pewno to wtedy sprawdzę. :)
ars

14

Dwie osoby pchają głaz na wzgórze. Chcesz wiedzieć, jak mocno każdy z nich naciska. Załóżmy, że patrzysz, jak pchają się razem przez dziesięć minut, a głaz porusza się o 10 stóp. Czy pierwszy facet wykonał całą pracę, a drugi po prostu podrobił to? Lub odwrotnie? Lub 50-50? Ponieważ obie siły działają dokładnie w tym samym czasie, nie można rozdzielić siły żadnej z nich osobno. Wszystko, co możesz powiedzieć, to to, że ich łączna siła wynosi 1 stopę na minutę.

Teraz wyobraź sobie, że pierwszy facet popycha się przez minutę, potem dziewięć minut z drugim facetem, a ostatnia minuta to tylko drugi facet pchający. Teraz możesz użyć szacunków sił w pierwszej i ostatniej minucie, aby obliczyć siłę każdej osoby osobno. Mimo że nadal w dużej mierze działają w tym samym czasie, fakt, że istnieje niewielka różnica, pozwala uzyskać oszacowanie siły dla każdego z nich.

Jeśli widziałeś, jak każdy mężczyzna pcha niezależnie przez pełne dziesięć minut, dałoby to dokładniejsze oszacowanie sił, niż gdyby siły nakładały się w dużym stopniu.

Pozostawiam jako ćwiczenie dla czytelnika, aby rozszerzyć tę sprawę na jednego mężczyznę pchającego w górę, a drugiego pchającego w dół (nadal działa).

Idealna wielokolonowość uniemożliwia osobne oszacowanie sił; prawie wielokolonowość daje większe standardowe błędy.


6

Tak naprawdę myślę o tym w kategoriach informacji. Powiedzieć każdej i zawiera informacje o . Im bardziej skorelowane i są ze sobą, tym bardziej treść informacji o z i jest podobna lub nakłada się, do tego stopnia, że ​​dla idealnie skorelowanego i , to naprawdę ta sama treść informacyjna. Jeśli teraz umieścimy i w tym samym modelu (regresji) w celu wyjaśnienia , model spróbuje „przydzielić” informacje, które (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) zawiera około dla każdego z i , w nieco arbitralny sposób. Nie ma naprawdę dobrego sposobu, aby to rozdzielić, ponieważ jakikolwiek podział informacji nadal prowadzi do zachowania całkowitej informacji z ( , ) w modelu (dla idealnie skorelowanych , to naprawdę jest przypadek braku możliwości identyfikacji). Prowadzi to do niestabilnych indywidualnych oszacowań dla indywidualnych współczynników i , chociaż jeśli spojrzysz na przewidywane wartości wielu przebiegów i szacunki iX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, będą one dość stabilne.


4

Moja (bardzo) świecka intuicja polega na tym, że model OLS potrzebuje pewnego poziomu „sygnału” w zmiennej X, aby go wykryć, daje „dobre” przewidywanie dla Y. Jeśli ten sam „sygnał” rozłożony jest na wiele X (ponieważ są skorelowane), to żaden ze skorelowanych X nie może dać wystarczająco „dowodu” (istotności statystycznej), że jest to prawdziwy predyktor.

Poprzednie (wspaniałe) odpowiedzi świetnie się wyjaśniają, dlaczego tak jest.


3

Załóżmy, że dwie osoby współpracowały i dokonały odkrycia naukowego. Łatwo jest powiedzieć ich unikalny wkład (kto co zrobił), kiedy dwie są całkowicie różnymi osobami (jedna jest facetem od teorii, a druga jest dobra w eksperymentach), podczas gdy trudno jest odróżnić ich unikalne wpływy (współczynniki regresji), kiedy są bliźniaki działające podobnie.


2

Jeśli dwa regresory są doskonale skorelowane, ich współczynników nie będzie można obliczyć; warto zastanowić się, dlaczego trudno byłoby je zinterpretować , gdybyśmy mogli je obliczyć . W rzeczywistości wyjaśnia to, dlaczego trudno jest interpretować zmienne, które nie są idealnie skorelowane, ale które nie są naprawdę niezależne.

Załóżmy, że naszą zmienną zależną jest dzienna podaż ryb w Nowym Jorku, a nasze zmienne niezależne obejmują jedną dla tego, czy pada w tym dniu i jedną dla ilości przynęty zakupionej w tym dniu. Kiedy nie zbieramy naszych danych, nie zdajemy sobie sprawy, że za każdym razem, gdy pada deszcz, rybacy nie kupują przynęty, a za każdym razem kupują stałą ilość przynęty. Więc Bait i Rain są doskonale skorelowane, a kiedy przeprowadzamy regresję, nie możemy obliczyć ich współczynników. W rzeczywistości Bait i Rain prawdopodobnie nie są idealnie skorelowane, ale nie chcielibyśmy uwzględniać ich obu jako regresorów bez oczyszczenia ich z ich endogeniczności.


1

Myślę, że zmienna pułapka manekina zapewnia kolejną użyteczną możliwość zilustrowania, dlaczego problemem jest wielokoliniowość. Przypomnijmy, że powstaje, gdy w modelu mamy stały i pełny zestaw manekinów. Następnie suma manekinów stanowi jeden, stały, a więc wielokoliniowy.

Np. Manekin dla mężczyzn i jeden dla kobiet:

yi=β0+β1Mani+β2Womani+ui

Standardowa interpretacja jest oczekiwaną zmianą która wynika ze zmiany z 0 na 1. Podobnie, jest oczekiwaną zmianą która wynika ze zmiany z 0 na 1.β1YManiβ2YWomani

Ale co zatem ma reprezentować ...? Jest to , więc oczekiwany wynik dla osób, które nie są ani mężczyzną ani kobietą ... prawdopodobnie bezpiecznie jest powiedzieć, że dla praktycznie wszystkich zbiorów danych, które napotkasz, to nie jest przydatne pytanie :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.