Dlaczego reszty w regresji liniowej zawsze sumują się do zera, gdy uwzględniany jest punkt przecięcia?

14

Biorę kurs na modele regresji, a jedną z właściwości przewidzianych dla regresji liniowej jest to, że reszty zawsze sumują się do zera po uwzględnieniu przecięcia.

Czy ktoś może podać dobre wyjaśnienie, dlaczego tak jest?

regression residuals

— dts86
źródło

3

Możesz najpierw zastanowić się nad ściśle powiązanym, ale prostszym pytaniem, dlaczego w próbce jednoczynnikowej, reszty otrzymane przez odjęcie średniej próbki od każdej wartości również sumują się do 0. (Jeśli to możliwe,

— spróbuj wykonać algebrę

3

Gdy tylko rozpoznasz, że „suma do zera” oznacza „prostopadły do jednej ze zmiennych objaśniających”, odpowiedź staje się geometrycznie oczywista.

— whuber

18

Wynika to bezpośrednio z równań normalnych, tj. Równań, które rozwiązuje estymator OLS,

X^{'} \underset{e}{\underset{⏟}{(y - X b)}} = 0

$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0$

Wektor w nawiasach jest oczywiście wektorem resztkowym lub rzutem na ortogonalne dopełnienie przestrzeni kolumn , jeśli lubisz algebrę liniową. Teraz dołączenie wektora jedności do macierzy , która, nawiasem mówiąc, nie musi znajdować się w pierwszej kolumnie, jak jest to zwykle wykonywane, prowadzi do $\mathbf{y}$ $X$ $\mathbf{X}$

1^{'} e = 0 ⟹ \sum_{i = 1}^{n} e_{i} = 0

$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$

W przypadku dwóch zmiennych jest to jeszcze prostsze, ponieważ prowadzi do tego minimalizacja sumy kwadratów reszt

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$

gdy weźmiemy pochodną w odniesieniu do przecięcia. Następnie przystępujemy do uzyskania znanego estymatora

a = \bar{y} - b \bar{x}

$a = \bar{y} - b \bar{x}$

gdzie ponownie widzimy, że konstrukcja naszych estymatorów narzuca ten warunek.

— JohnK
źródło

17

Jeśli szukasz raczej intuicyjnego wyjaśnienia.

W pewnym sensie model regresji liniowej jest niczym innym jak wymyślnym środkiem. Aby znaleźć średnią arytmetyczną powyżej niektórych wartości , znajdujemy wartość będącą miarą centralności w tym sensie, że suma wszystkich odchyleń (gdzie każde odchylenie jest zdefiniowane jako ) po prawej stronie średniej wartości jest równa sumie wszystkich odchyleń po lewej stronie tej średniej. Nie ma nieodłącznego powodu, dla którego ten środek jest dobry, nie mówiąc już o najlepszym sposobie opisania średniej próbki, ale z pewnością jest intuicyjny i praktyczny. Ważne jest to, że definiując w ten sposób średnią arytmetyczną, z konieczności wynika, że po skonstruowaniu średniej arytmetycznej wszystkie odchylenia od tej średniej muszą z definicji sumować się do zera! $\bar{x}$ $x_1, x_2, \dots, x_n$ $u_i = x_i - \bar{x}$

W regresji liniowej nie jest inaczej. Możemy dopasować linię tak, że suma wszystkich różnic pomiędzy naszymi wartościami zabudowanymi (które są na linii regresji) a rzeczywistymi wartościami, które są powyżej linii jest dokładnie równa sumie wszystkich różnic pomiędzy linii regresji, a wszystkie wartości poniżej linia. Ponownie, nie ma nieodłącznego powodu, dla którego jest to najlepszy sposób skonstruowania dopasowania, ale jest to proste i intuicyjne. Podobnie jak w przypadku średniej arytmetycznej: konstruując nasze dopasowane wartości w ten sposób, koniecznie wynika z konstrukcji, że wszystkie odchylenia od tej linii muszą sumować się do zera, w przeciwnym razie po prostu nie byłby to regresja OLS.

— Manuel R.
źródło

2

+1 za prostą, prostą i intuicyjną odpowiedź!

Świetne wytłumaczenie, ale nie jestem pewien: „Znów nie ma nieodłącznego powodu, dla którego jest to najlepszy sposób na dopasowanie, ale jest to proste i intuicyjne”. jest dokładny. Twierdzenie Gaussa-Markowa dobrze wie, że estymatory OLS są NIEBIESKIE: najlepsze (najmniejszej wariancji) liniowe bezstronne szacunki (przy założeniu spełnienia założeń). Często nasze intuicyjne „odczucia” dotyczące tego, co jest atrakcyjne / uzasadnione, są również poparte matematycznie, jak ma to miejsce w tym przypadku.

— Meg

3

Gdy punkt przecięcia jest uwzględniony w wielu regresji liniowej, W regresji najmniejszych kwadratów suma kwadratów błędów jest zminimalizowana. Weź częściowe pochodna SSE w odniesieniu do i ustawienie jej na zero.

{\hat{y}}_{i} = β_{0} + β_{1} x_{i, 1} + β_{2} x_{i, 2} + \dots + β_{p} x_{i, p}

$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^2$

β_{0}

$\beta_0$

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{1} (- 1) = - 2 \sum_{i = 1}^{n} e_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^1 (-1) =-2\displaystyle\sum\limits_{i=1}^ne_i=0$ Stąd reszty zawsze sumują się do zera, gdy punkt przecięcia jest uwzględniony w regresji liniowej.

— DavidCruise
źródło

1

Kluczową obserwacją jest to, że ponieważ model ma punkt przecięcia, , który jest pierwszą kolumną macierzy projektowej , można zapisać jako gdzie jest wektorem kolumny ze wszystkimi zerami, ale pierwszym składnikiem. Zauważ też, że w notacji macierzowej suma reszt wynosi zaledwie . $1$ $X$

1 = X e,

$1 = Xe,$

e

$e$

1^{T} (y - \hat{y})

$1^T(y - \hat{y})$

Dlatego

\begin{aligned} 1^{T} (y - \hat{y}) = 1^{T} (I - H) y \\ = & e^{T} X^{T} (I - X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T} X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T}) y \\ = & 0. \end{aligned}

$\begin{align} & 1^T(y - \hat{y}) = 1^T(I - H)y \\ = & e^TX^T(I - X(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^TX(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^T)y \\ = & 0. \end{align}$

— Zhanxiong
źródło

0

Proste wyprowadzenie przy użyciu algebry macierzowej:

$\sum e$ można zapisać jako $1^Te$

Następnie

$1^Te = 1^T(M_x y)$ gdzie jest macierzą ortogonalną. Ponieważ jest symetryczny, możemy zmienić kolejność, aby $M_x$ $M_x$ $(M_x1)^Ty$

co jest równe zeru, jeśli i są ortogonalne, co ma miejsce, jeśli macierz regresorów zawiera punkt przecięcia (wektor , rzeczywiście). $M_x$ $1$ $x$ $1$

— Mino
źródło

Nie sądzę, że to prawda.

— Michael R. Chernick

Jeśli wyjaśnisz, dlaczego, z przyjemnością się czegoś nauczę

— Mino

0

$e_i = y_i - [1, X] [a, b] = y_i - Xb - a = v_i - a$
$\frac{d}{da} \sum e_i^2 \propto \sum e_i\cdot 1 = \sum v_i - a = 0$ so $\hat{a} = \frac{1}{n}\sum v_i$
$\sum e_i = \sum_i v_i - a = \sum_i v_i - \frac{n}{n}\sum_i v_i = 0$

..

— Hunaphu
źródło