Wpływ odpowiedzi przełączającej i zmiennej objaśniającej w prostej regresji liniowej


48

Załóżmy, że istnieje pewien „prawdziwy” związek między i , tak że , gdzie i są stałymi, a jest IID normalnego hałasu. Kiedy losowo generować dane z tego kodu R: a następnie dopasować model podobnego , ja oczywiście się rozsądnie dobre prognozy dla i .yxy=ax+b+ϵabϵx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xab

Jeśli jednak zmienię rolę zmiennych jak w (x ~ y), a następnie przepiszę wynik, aby y było funkcją x , wynikowe nachylenie jest zawsze bardziej strome (bardziej ujemne lub bardziej dodatnie) niż oszacowane przez y ~ xregresję. Staram się dokładnie zrozumieć, dlaczego tak jest, i doceniłbym to, gdyby ktokolwiek mógł dać mi intuicję, co się tam dzieje.


1
To ogólnie nie jest prawda. Być może po prostu widzisz to w swoich danych. Wklej ten kod: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); do R kilka razy, a przekonasz się, że idzie w obie strony.
Makro

To trochę różni się od tego, co opisałem. W twoim przykładzie y w ogóle nie było funkcją x, więc tak naprawdę nie ma żadnego „nachylenia” („a” w moim przykładzie).
Greg Aponte

lm (y ~ x) pasuje do modelu y=β0+β1x+ε o najmniejsze kwadraty (równoważne oszacowaniu ML, gdy błędy są prawidłowe). Jest nachylenie.
Makro

2
Twoje pytanie jest zadawane i odpowiedzi (w pewnym sensie) na stats.stackexchange.com/questions/13126 i stats.stackexchange.com/questions/18434 . Jednak uważam, że nikt jeszcze nie przedstawił prostego, jasnego wyjaśnienia zależności między (a) regresją Y vs X , (b) regresją X vs Y , (c) analizą korelacji X i Y , (d) regresja błędów w zmiennych X i Y oraz (e) dopasowanie dwuwymiarowego Rozkład normalny do (X,Y) . To byłoby dobre miejsce na taką ekspozycję :-).
whuber

2
Oczywiście Makro jest poprawne: ponieważ xiy odgrywają równoważne role w pytaniu, które nachylenie jest bardziej ekstremalne, jest kwestią przypadku. Jednak geometria sugeruje (niepoprawnie), że kiedy odwrócimy x i y w regresji, powinniśmy otrzymać wartość odniesienia pierwotnego nachylenia. To się nigdy nie zdarza, chyba że xiy są liniowo zależne. To pytanie można interpretować jako pytanie, dlaczego.
whuber

Odpowiedzi:


23

Biorąc pod uwagę punktów danych ( x i , y i ) , i = 1 , 2 , n , w płaszczyźnie, narysujmy linię prostą y = a x + b . Jeśli przewidzieć w x i + B jako wartości y i z Y, I , wówczas błąd jest ( R I - Y I ) = ( Yn(xi,yi),i=1,2,ny=ax+baxi+by^iyi Thekwadratowy błądjest ( R I - x i - b ), 2 icałkowitym błędem kwadratów Σ n i = 1 ( R I - x i - b ) 2 . Pytamy(yiy^i)=(yiaxib)(yiaxib)2 i=1n(yiaxib)2

Co wybór oraz b minimalizuje S = n Ď i = 1 ( R I - x i - b ) 2 ?abS=i=1n(yiaxib)2

Ponieważ jest pionową odległością ( x i , y i ) od linii prostej, prosimy o taką linię, aby suma kwadratów pionowych odległości punktów od linia jest tak mała, jak to możliwe. Teraz S ma kwadratową funkcją zarówno A i B , a osiąga minimalną wartość, gdy i b są takie, że S(yiaxib)(xi,yi)Sabab Z drugiego równania otrzymujemy b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
gdzie μy=1
b=1ni=1n(yiaxi)=μyaμx
to średnia arytmetyczna wartościyi's axi' s, odpowiednio. Podstawiając do pierwszego równania, otrzymujemy a=( 1μy=1ni=1nyi, μx=1ni=1nxiyixi Zatem linia, która minimalizujeS,może być wyrażona jako y=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
S a minimalna wartośćSwynosi Smin=[(1
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

Jeśli zamienione role i Y , narysować linię x = a r + b i poprosić o wartości i B , które minimalizują T = n Σ i = 1 ( x ı - w y I - b ) 2 , czyli chcemy linię tak, że suma kwadratów poziomych odległości punktów od linii jest tak mały, jak to możliwe, a następnie otrzymujemyxyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

a minimalna wartośćTwynosi Tmin=[(1

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

Zauważ, że obie linie przechodzą przez punkt ale nachylenia wynoszą a = ( 1(μx,μy) są ogólnie różne. Rzeczywiście, jak wskazuje @whuber w komentarzu, nachylenia są takie same, gdy wszystkie punkty(xi,yi)leżą na tej samej linii prostej. W tym celu patrz uwaga że -1-=Sminimum

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

Dzięki! abs (korelacja) <1 wyjaśnia, dlaczego nachylenie było systematycznie bardziej strome w odwrotnym przypadku.
Greg Aponte

(+1), ale dodałem odpowiedź z ilustracją tego, co właśnie powiedziałeś, ponieważ mam geometryczny umysł :)
Elvis

Odpowiedź klasy (+1)
Digio,

39

Aby zilustrować odpowiedź Dilipa: na poniższych zdjęciach

  • czarne kropki to punkty danych;
  • po lewej czarna linia jest linią regresji uzyskaną przez y ~ x, która minimalizuje kwadraty długości czerwonych segmentów;
  • po prawej stronie czarna linia jest uzyskaną linią regresji x ~ y, która minimalizuje kwadraty długości czerwonych segmentów.

linie regresji

Edycja (regresja najmniejszych prostokątów)

yx

  • Y=aX+b+ϵ
  • y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

Oto ilustracja z tymi samymi punktami danych, dla każdego punktu obliczany jest „prostokąt” jako iloczyn długości dwóch czerwonych segmentów, a suma prostokątów jest zminimalizowana. Nie wiem wiele o właściwościach tej regresji i nie znajduję wiele w Google.

najmniej prostokątów


14
X=(y,x)

14
δ=1

2
@cardinal Bardzo ciekawe komentarze! (+1) Uważam, że tutaj ważna jest również oś główna (minimalizująca prostopadłe odległości między linią reg. A wszystkimi punktami, à la PCA) lub zmniejszona regresja osi głównej lub regresja typu II, jak zilustrowane w pakiecie lmodel2 R autorstwa P Legendre, ponieważ techniki te są stosowane, gdy trudno jest powiedzieć, jaką rolę (odpowiedź lub predyktor) odgrywa każda zmienna lub kiedy chcemy uwzględnić błędy pomiaru.
chl

1
@chl: (+1) Tak, uważam, że masz rację, a strona Wikipedii w sumie najmniejszych kwadratów zawiera kilka innych nazw dla tej samej procedury, z których nie wszystkie znam. Wydaje się, że sięga co najmniej R. Frischa, statystycznej analizy konfluencji za pomocą kompletnych systemów regresji , Universitetets Økonomiske Instituut, 1934, gdzie nazwano ją regresją diagonalną .
kardynał

3
@ kardynał Powinienem być bardziej ostrożny, czytając wpis w Wikipedii ... W celu odniesienia się w przyszłości, oto zdjęcie zrobione z Biostatistic Design and Analysis Using R , autorstwa M. Logana (Wiley, 2010; Ryc. 8.4, s. 174) , który podsumowuje różne podejścia, podobnie jak ładne ilustracje Elvisa.
chl

13

xysxsyxyryrsysxxrsxsyr21

Tak więc im większy wyjaśniony odsetek wariancji, tym bliższe nachylenie uzyskane z każdego przypadku. Zauważ, że proporcja wyjaśnionej wariancji jest symetryczna i równa kwadratowej korelacji w prostej regresji liniowej.


1

y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

Link do innych odpowiedzi

R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

bxy=1/β


0

Staje się interesujący, gdy na twoich wejściach pojawia się również szum (co moglibyśmy argumentować, że zawsze tak jest, żadne polecenie lub obserwacja nigdy nie są idealne).

x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Zobacz różne wyniki (odr tutaj to regresja odległości ortogonalnej , tj. Taka sama jak regresja najmniejszych prostokątów):

wprowadź opis zdjęcia tutaj

Cały kod jest tam:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

Linia regresji nie jest (zawsze) taka sama jak prawdziwa relacja

Możesz mieć jakiś „prawdziwy” związek przyczynowy

y=a+bx+ϵ

ale dopasowane linie regresji y ~ xlub x ~ ynie oznaczają tego samego co związek przyczynowy (nawet jeśli w praktyce wyrażenie dla jednej z linii regresji może pokrywać się z wyrażeniem związku przyczynowego „prawdziwego”)


Bardziej precyzyjna relacja między stokami

Dla dwóch przełączonych prostych regresji liniowych:

Y=a1+b1XX=a2+b2Y

możesz powiązać stoki w następujący sposób:

b1=ρ21b21b2

Stoki niewięc odwrotne.


Intuicja

Powód jest taki, że

  • Linie regresji i korelacji nie nie muszą odpowiadać jeden-na-jeden do związku przyczynowego.
  • Linie regresji odnoszą się bardziej bezpośrednio do warunkowego prawdopodobieństwa lub najlepszej prognozy.

Możesz sobie wyobrazić, że prawdopodobieństwo warunkowe odnosi się do siły związku. Linie regresji odzwierciedlają to, a nachylenie linii może być zarówno płytkie, gdy siła relacji jest niewielka, jak i obie strome, gdy siła relacji jest silna. Stoki nie są po prostu odwrotne.

Przykład

XY

Y=a little bit of X+ a lot of error
XY .

Zamiast

X=a lot of Y+ a little of error

lepiej byłoby również użyć

X=a little bit of Y+ a lot of error

Σ11Σ22=1Σ12=Σ21=ρ

przykład

Warunkowe oczekiwane wartości (uzyskane w regresji liniowej) to

E(Y|X)=ρXE(X|Y)=ρY

X,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

ρX1ρ2 . To samo jest prawdą na odwrót.

ρY ~ XX ~ Y


0

Krótka odpowiedź

Celem prostej regresji liniowej jest uzyskanie najlepszych przewidywań yzmiennej, przy danych wartościach xzmiennej. Jest to inny cel niż próba wymyślenia najlepszej prognozy xzmiennej, biorąc pod uwagę wartości yzmiennej.

Prosta regresji liniowej y ~ xdaje „najlepsze” możliwy model do przewidywania ypodane x. Dlatego jeśli dopasujesz model x ~ yi odwrócisz go algebraicznie, model ten będzie w najlepszym wypadku działał równie dobrze jak model y ~ x. Ale odwracanie model pasuje do x ~ yzazwyczaj gorzej w przewidywaniu ypodano x, w porównaniu do „optymalnego” y ~ xmodelu, ponieważ „odwrócony x ~ ywzór” został stworzony, aby spełnić inny cel.

Ilustracja

Wyobraź sobie, że masz następujący zestaw danych:

wprowadź opis zdjęcia tutaj

Po uruchomieniu regresji OLS y ~ xpojawia się następujący model

y = 0.167 + 1.5*x

To optymalizuje prognozy y, dokonując następujących prognoz, które są powiązane z błędami:

wprowadź opis zdjęcia tutaj

Prognozy regresji OLS są optymalne w tym sensie, że suma wartości w prawej kolumnie (tj. Suma kwadratów) jest tak mała, jak to tylko możliwe.

Po uruchomieniu regresji OLS x ~ ypojawia się inny model:

x = -0.07 + 0.64*y

To optymalizuje prognozy x, tworząc następujące prognozy z powiązanymi błędami.

wprowadź opis zdjęcia tutaj

Ponownie, jest to optymalne w tym sensie, że suma wartości skrajnej prawej kolumny jest tak mała, jak to możliwe (równa się 0.071).

Teraz wyobraź sobie, że próbowałeś po prostu odwrócić pierwszy model y = 0.167 + 1.5*x, używając algebry, dając ci model x = -0.11 + 0.67*x.

Dałoby to następujące prognozy i powiązane błędy:

wprowadź opis zdjęcia tutaj

Suma wartości w kolumnie znajdującej się po prawej stronie 0.074jest większa niż odpowiednia suma z modelu uzyskanego z regresji x na y, tj. x ~ yModelu. Innymi słowy, „ y ~ xmodel odwrócony ” radzi sobie gorzej w przewidywaniu x niż model OLS x ~ y.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.