Regresja liniowa: * Dlaczego * możesz podzielić sumy kwadratów?

9

Ten post dotyczy dwuwymiarowego modelu regresji liniowej, $Y_i = \beta_0 + \beta_1x_i$ . Zawsze brałem pod uwagę podział sumy kwadratów (SSTO) na sumę kwadratów dla błędu (SSE) i sumę kwadratów dla modelu (SSR) na wiarę, ale kiedy naprawdę zacząłem o tym myśleć, nie rozumiem dlaczego to działa ...

Część I nie rozumiem:

$y_i$ : Obserwowana wartość y

$\bar{y}$ : Średnia ze wszystkich zaobserwowanych $y_i$ s

$\hat{y}_i$ : Dopasowana / przewidywana wartość y dla danej obserwacji x

$y_i - \hat{y}_i$ : Resztkowe / błąd (jeśli do kwadratu i sumy dla wszystkich obserwacji jest to SSE)

$\hat{y}_i - \bar{y}$ : Jak bardzo dopasowana wartość modelu różni się od średniej (jeśli do kwadratu i sumy dla wszystkich obserwacji jest to SSR)

$y_i - \bar{y}$ : Jak bardzo zaobserwowana wartość różni się od średniej (jeśli jest sprawdzana i sumowana dla wszystkich obserwacji, jest to SSTO).

Rozumiem, dlaczego dla pojedynczej obserwacji, nic nie podnosząc kwadratu, $(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)$ . I rozumiem, dlaczego, jeśli chcesz dodać rzeczy do wszystkich obserwacji, musisz je wyrównać, bo w przeciwnym razie sumują się do zera.

Nie rozumiem tylko, dlaczego $(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2$ (np. SSTO = SSR + SSE). Wydaje się, że jeśli masz sytuację, w której $A = B + C$ , następnie $A^2 = B^2 + 2BC + C^2$ , nie $A^2 = B^2 + C^2$ . Dlaczego tak nie jest w tym przypadku?

regression sums-of-squares orthogonal

— bluemouse
źródło

5

W ostatnim akapicie pominąłeś podsumowanie. SST = SSR + SSE to suma

i

$i$ , ale twoja równość, którą napisałeś bezpośrednio przed nią, nie jest tak naprawdę prawdą bez znaku sumowania.

— Glen_b

1

W ostatnim akapicie nie chcesz (tj. SSTO = SSR + SSE) nie (np. SSTO = SSR + SSE). „eg” to skrót od łacińskiego zwrotu „ exempli gratia ” lub „na przykład” w języku angielskim. „ie” jest skrótem od „ id est ” i można je odczytać w języku angielskim jako „to znaczy”.

— Matthew Gunn

9

Wydaje się, że jeśli masz sytuację, w której $A = B + C$ , następnie $A^2 = B^2 + 2BC + C^2$ , nie $A^2 = B^2 + C^2$ . Dlaczego tak nie jest w tym przypadku?

Koncepcyjnie chodzi o to, że $BC = 0$ ponieważ $B$ i $C$ są ortogonalne (tj. są prostopadłe).

W kontekście regresji liniowej tutaj reszty $\epsilon_i = y_i - \hat{y}_i$ są prostopadłe do poniższej prognozy $\hat{y}_i - \bar{y}$ . Prognoza z regresji liniowej tworzy rozkład ortogonalny $\mathbf{y}$ w podobnym sensie jak $(3,4) = (3,0) + (0,4)$ jest rozkładem ortogonalnym.

Wersja Algebry Liniowej:

Pozwolić:

z = [\begin{matrix} y_{1} - \bar{y} \\ y_{2} - \bar{y} \\ \dots \\ y_{n} - \bar{y} \end{matrix}] \hat{z} = [\begin{matrix} {\hat{y}}_{1} - \bar{y} \\ {\hat{y}}_{2} - \bar{y} \\ \dots \\ {\hat{y}}_{n} - \bar{y} \end{matrix}] ϵ = [\begin{matrix} y_{1} - {\hat{y}}_{1} \\ y_{2} - {\hat{y}}_{2} \\ \dots \\ y_{n} - {\hat{y}}_{n} \end{matrix}] = z - \hat{z}

$\mathbf{z} = \begin{bmatrix} y_1 - \bar{y} \\ y_2 - \bar{y}\\ \ldots \\ y_n - \bar{y} \end{bmatrix} \quad \quad \mathbf{\hat{z}} = \begin{bmatrix} \hat{y}_1 - \bar{y} \\ \hat{y}_2 - \bar{y} \\ \ldots \\ \hat{y}_n - \bar{y} \end{bmatrix} \quad \quad \boldsymbol{\epsilon} = \begin{bmatrix} y_1 - \hat{y}_1 \\ y_2 - \hat{y}_2 \\ \ldots \\ y_n - \hat{y}_n \end{bmatrix} = \mathbf{z} - \hat{\mathbf{z}}$

Regresja liniowa (z uwzględnieniem stałej) rozkłada na sumę dwóch wektorów: prognozy i resztkowego $\mathbf{z}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$

z = \hat{z} + ϵ

$\mathbf{z} = \hat{\mathbf{z}} + \boldsymbol{\epsilon}$

Niech oznacza iloczyn skalarny . (Ogólniej, może być iloczynem wewnętrznym .) $\langle .,. \rangle$ $\langle X,Y \rangle$ $E[XY]$

\begin{aligned} ⟨ z, z ⟩ & = ⟨ \hat{z} + ϵ, \hat{z} + ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + 2 ⟨ \hat{z}, ϵ ⟩ + ⟨ ϵ, ϵ ⟩ \\ = ⟨ \hat{z}, \hat{z} ⟩ + ⟨ ϵ, ϵ ⟩ \end{aligned}

$\begin{align*} \langle \mathbf{z} , \mathbf{z} \rangle &= \langle \hat{\mathbf{z}} + \boldsymbol{\epsilon}, \hat{\mathbf{z}} + \boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + 2 \langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \end{align*}$

Tam, gdzie ostatni wiersz wynika z faktu, że (tj. Że i są ortogonalne). Możesz udowodnić, że i są ortogonalne w oparciu o to, jak zwykła regresja metodą najmniejszych kwadratów konstruuje . $\langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle = 0$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon} = \mathbf{z}- \hat{\mathbf{z}}$ $\hat{\mathbf{z}}$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$

$\hat{\mathbf{z}}$ jest projekcją liniową o na podprzestrzeni określonej przez liniowe przedziale od się regresorów , itp .... residual jest ortogonalny do całej tej podprzestrzeni, stąd (który leży w zakresie , itd.) ortogonalny do . $\mathbf{z}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$ $\hat{\mathbf{z}}$ $\mathbf{x}_1$ $\mathbf{x}_2$ $\boldsymbol{\epsilon}$

Zauważ, że jak zdefiniowałem jako iloczyn kropkowy, to po prostu inny sposób pisania (tj. SSTO = SSR + SSE) $\langle .,.\rangle$ $\langle \mathbf{z} , \mathbf{z} \rangle = \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle$ $\sum_i (y_i - \bar{y})^2 = \sum_i (\hat{y}_i - \bar{y})^2 + \sum_i (y_i - \hat{y}_i)^2$

— Matthew Gunn
źródło

8

Cały punkt pokazuje, że niektóre wektory są ortogonalne, a następnie używają twierdzenia Pitagorasa.

Rozważmy regresję liniową wielowymiarową . Wiemy, że estymatorem OLS jest . Teraz rozważ oszacowanie $Y = X\beta + \epsilon$ $\hat{\beta} = (X^tX)^{-1}X^tY$

$\hat{Y} = X\hat{\beta} = X(X^tX)^{-1}X^tY = HY$ (macierz H nazywana jest również macierzą „hat”)

gdzie jest ortogonalną macierzą projekcji Y na . Teraz mamy $H$ $S(X)$

$Y - \hat{Y} = Y - HY = (I - H)Y$

gdzie jest macierzą rzutowania na ortogonalne uzupełnienie którym jest . Wiemy zatem, że i są ortogonalne. $(I-H)$ $S(X)$ $S^{\bot}(X)$ $Y-\hat{Y}$ $\hat{Y}$

Teraz rozważ podmodel $Y = X_0\beta_0 + \epsilon$

gdzie i mamy estymator OLS i oszacowanie i z macierzą projekcji na . Podobnie mamy, że i są ortogonalne. I teraz $X = [X_0 | X_1 ]$ $\hat{\beta_0}$ $\hat{Y_0}$ $H_0$ $S(X_0)$ $Y - \hat{Y_0}$ $\hat{Y_0}$

$\hat{Y} - \hat{Y_0} = HY - H_0Y = HY - H_0HY = (I - H_0)HY$

gdzie znowu jest ortogonalną macierzą projekcji na dopełnieniu która jest . Mamy więc ortogonalność i . Tak więc w końcu mamy $(I-H_0)$ $S(X_0)$ $S^{\bot}(X_0)$ $\hat{Y} - \hat{Y_0}$ $\hat{Y_0}$

$||Y - \hat{Y}||^2 = ||Y||^2 - ||\hat{Y}||^2 = ||Y - \hat{Y_0}||^2 + ||\hat{Y_0}||^2 - ||\hat{Y} - \hat{Y_0}||^2 - ||\hat{Y_0}||^2$

i wreszcie $||Y - \hat{Y_0}||^2 = ||Y - \hat{Y}||^2 + ||\hat{Y} - \hat{Y_0}||^2$

Wreszcie, średnia jest po prostu , biorąc pod uwagę model zerowy . $\bar{Y}$ $\hat{Y_0}$ $Y = \beta_0 + e$

— Łukasz Grad
źródło

Dziękuję za Twoją odpowiedź! Co to jest S () (jak w S (X) w twoim poście)?

— bluemouse

S (X)

$S(X)$ jest podprzestrzenią generowaną przez kolumny macierzy

X

$X$

— Łukasz Grad