Dlaczego reszty w regresji liniowej zawsze sumują się do zera, gdy uwzględniany jest punkt przecięcia?


14

Biorę kurs na modele regresji, a jedną z właściwości przewidzianych dla regresji liniowej jest to, że reszty zawsze sumują się do zera po uwzględnieniu przecięcia.

Czy ktoś może podać dobre wyjaśnienie, dlaczego tak jest?


3
Możesz najpierw zastanowić się nad ściśle powiązanym, ale prostszym pytaniem, dlaczego w próbce jednoczynnikowej, reszty otrzymane przez odjęcie średniej próbki od każdej wartości również sumują się do 0. (Jeśli to możliwe,
spróbuj wykonać algebrę

3
Gdy tylko rozpoznasz, że „suma do zera” oznacza „prostopadły do ​​jednej ze zmiennych objaśniających”, odpowiedź staje się geometrycznie oczywista.
whuber

Odpowiedzi:


18

Wynika to bezpośrednio z równań normalnych, tj. Równań, które rozwiązuje estymator OLS,

X(yXb)e=0

Wektor w nawiasach jest oczywiście wektorem resztkowym lub rzutem na ortogonalne dopełnienie przestrzeni kolumn , jeśli lubisz algebrę liniową. Teraz dołączenie wektora jedności do macierzy , która, nawiasem mówiąc, nie musi znajdować się w pierwszej kolumnie, jak jest to zwykle wykonywane, prowadzi do X XyXX

1e=0i=1nei=0

W przypadku dwóch zmiennych jest to jeszcze prostsze, ponieważ prowadzi do tego minimalizacja sumy kwadratów reszt

i=1n(yiabxi)=0

gdy weźmiemy pochodną w odniesieniu do przecięcia. Następnie przystępujemy do uzyskania znanego estymatora

a=y¯bx¯

gdzie ponownie widzimy, że konstrukcja naszych estymatorów narzuca ten warunek.


17

Jeśli szukasz raczej intuicyjnego wyjaśnienia.

W pewnym sensie model regresji liniowej jest niczym innym jak wymyślnym środkiem. Aby znaleźć średnią arytmetyczną powyżej niektórych wartości , znajdujemy wartość będącą miarą centralności w tym sensie, że suma wszystkich odchyleń (gdzie każde odchylenie jest zdefiniowane jako ) po prawej stronie średniej wartości jest równa sumie wszystkich odchyleń po lewej stronie tej średniej. Nie ma nieodłącznego powodu, dla którego ten środek jest dobry, nie mówiąc już o najlepszym sposobie opisania średniej próbki, ale z pewnością jest intuicyjny i praktyczny. Ważne jest to, że definiując w ten sposób średnią arytmetyczną, z konieczności wynika, że ​​po skonstruowaniu średniej arytmetycznej wszystkie odchylenia od tej średniej muszą z definicji sumować się do zera!x¯x1,x2,,xnui=xix¯

W regresji liniowej nie jest inaczej. Możemy dopasować linię tak, że suma wszystkich różnic pomiędzy naszymi wartościami zabudowanymi (które są na linii regresji) a rzeczywistymi wartościami, które są powyżej linii jest dokładnie równa sumie wszystkich różnic pomiędzy linii regresji, a wszystkie wartości poniżej linia. Ponownie, nie ma nieodłącznego powodu, dla którego jest to najlepszy sposób skonstruowania dopasowania, ale jest to proste i intuicyjne. Podobnie jak w przypadku średniej arytmetycznej: konstruując nasze dopasowane wartości w ten sposób, koniecznie wynika z konstrukcji, że wszystkie odchylenia od tej linii muszą sumować się do zera, w przeciwnym razie po prostu nie byłby to regresja OLS.


2
+1 za prostą, prostą i intuicyjną odpowiedź!

Świetne wytłumaczenie, ale nie jestem pewien: „Znów nie ma nieodłącznego powodu, dla którego jest to najlepszy sposób na dopasowanie, ale jest to proste i intuicyjne”. jest dokładny. Twierdzenie Gaussa-Markowa dobrze wie, że estymatory OLS są NIEBIESKIE: najlepsze (najmniejszej wariancji) liniowe bezstronne szacunki (przy założeniu spełnienia założeń). Często nasze intuicyjne „odczucia” dotyczące tego, co jest atrakcyjne / uzasadnione, są również poparte matematycznie, jak ma to miejsce w tym przypadku.
Meg

3

Gdy punkt przecięcia jest uwzględniony w wielu regresji liniowej, W regresji najmniejszych kwadratów suma kwadratów błędów jest zminimalizowana. Weź częściowe pochodna SSE w odniesieniu do i ustawienie jej na zero.

y^i=β0+β1xi,1+β2xi,2++βpxi,p
SSE=i=1n(ei)2=i=1n(yiyi^)2=i=1n(yiβ0β1xi,1β2xi,2βpxi,p)2
β0
SSEβ0=i=1n2(yiβ0β1xi,1β2xi,2βpxi,p)1(1)=2i=1nei=0
Stąd reszty zawsze sumują się do zera, gdy punkt przecięcia jest uwzględniony w regresji liniowej.


1

Kluczową obserwacją jest to, że ponieważ model ma punkt przecięcia, , który jest pierwszą kolumną macierzy projektowej , można zapisać jako gdzie jest wektorem kolumny ze wszystkimi zerami, ale pierwszym składnikiem. Zauważ też, że w notacji macierzowej suma reszt wynosi zaledwie .1X

1=Xe,
e1T(yy^)

Dlatego

1T(yy^)=1T(IH)y=eTXT(IX(XTX)1XT)y=eT(XTXTX(XTX)1XT)y=eT(XTXT)y=0.


0

Proste wyprowadzenie przy użyciu algebry macierzowej:

1 T ee można zapisać jako1Te

Następnie

M x M x ( M x 1 ) T y1Te=1T(Mxy) gdzie jest macierzą ortogonalną. Ponieważ jest symetryczny, możemy zmienić kolejność, aby MxMx(Mx1)Ty

co jest równe zeru, jeśli i są ortogonalne, co ma miejsce, jeśli macierz regresorów zawiera punkt przecięcia (wektor , rzeczywiście). 1 x 1Mx1x1


Nie sądzę, że to prawda.
Michael R. Chernick

Jeśli wyjaśnisz, dlaczego, z przyjemnością się czegoś nauczę
Mino

0
  1. ei=yi[1,X][a,b]=yiXba=via
  2. ddaei2ei1=via=0 soa^=1nvi
  3. ei=ivia=ivinnivi=0

..

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.