Dlaczego RSS jest dystrybuowany chi razy razy np?

Chciałbym zrozumieć, dlaczego w modelu OLS rozkłada się RSS (resztkową sumę kwadratów)

χ^{2} \cdot (n - p)

$\chi^2\cdot (n-p)$ (

p

$p$ oznacza liczbę parametrów w modelu,

n

$n$ liczbę obserwacji).

Przepraszam, że zadałem tak podstawowe pytanie, ale wydaje się, że nie jestem w stanie znaleźć odpowiedzi online (lub w moich, bardziej zorientowanych na aplikację podręcznikach).

regression distributions least-squares

— Tal Galili
źródło

Zauważ, że odpowiedzi pokazują, że twierdzenie nie jest całkiem poprawne: rozkład RSS wynosi

σ^{2}

$\sigma^2$ (nie

n - p

$n-p$ ) razy rozkład

χ^{2} (n - p)

$\chi^2(n-p)$ gdzie

σ^{2}

$\sigma^2$ jest prawdziwą wariancją błędów.

— whuber

Odpowiedzi:

Rozważam następujący model liniowy: ${y} = X \beta + \epsilon$ .

Wektor reszt szacowany jest przez

\hat{ϵ} = y - X \hat{β} = (I - X (X^{'} X)^{- 1} X^{'}) y = Q y = Q (X β + ϵ) = Q ϵ

$\hat{\epsilon} = y - X \hat{\beta} = (I - X (X'X)^{-1} X') y = Q y = Q (X \beta + \epsilon) = Q \epsilon$

gdzie $Q = I - X (X'X)^{-1} X'$ .

Zauważ, że (ślad jest niezmienny przy cyklicznej permutacji) i że . Wartości własne wynoszą zatem i (niektóre szczegóły poniżej). Zatem istnieje macierz jednostkowa taka, że ( macierze można diagonalizować za pomocą macierzy jednolitych wtedy i tylko wtedy, gdy są one normalne ). $\textrm{tr}(Q) = n - p$ $Q'=Q=Q^2$ $Q$ $0$ $1$ $V$

V^{'} Q V = Δ = diag (\underset{n - p times}{\underset{⏟}{1, \dots, 1}}, \underset{p times}{\underset{⏟}{0, \dots, 0}})

$V'QV = \Delta = \textrm{diag}(\underbrace{1, \ldots, 1}_{n-p \textrm{ times}}, \underbrace{0, \ldots, 0}_{p \textrm{ times}})$

Teraz niech . $K = V' \hat{\epsilon}$

Od mamy , a zatem . A zatem $\hat{\epsilon} \sim N(0, \sigma^2 Q)$ $K \sim N(0, \sigma^2 \Delta)$ $K_{n-p+1}=\ldots=K_n=0$

\frac{‖ K ‖^{2}}{σ^{2}} = \frac{‖ K^{⋆} ‖^{2}}{σ^{2}} \sim χ_{n - p}^{2}

$\frac{\|K\|^2}{\sigma^2} = \frac{\|K^{\star}\|^2}{\sigma^2} \sim \chi^2_{n-p}$

z . $K^{\star} = (K_1, \ldots, K_{n-p})'$

Ponadto, ponieważ jest macierzą jednolitą, my również mamy $V$

‖ \hat{ϵ} ‖^{2} = ‖ K ‖^{2} = ‖ K^{⋆} ‖^{2}

$\|\hat{\epsilon}\|^2 = \|K\|^2=\|K^{\star}\|^2$

A zatem

\frac{RSS}{σ^{2}} \sim χ_{n - p}^{2}

$\frac{\textrm{RSS}}{\sigma^2} \sim \chi^2_{n-p}$

Na koniec zauważ, że wynik ten implikuje

E (\frac{RSS}{n - p}) = σ^{2}

$E\left(\frac{\textrm{RSS}}{n-p}\right) = \sigma^2$

Ponieważ The minimal wielomianu o dzieli wielomian . Zatem wartości własne mieszczą się w zakresie od do . Ponieważ jest również sumą wartości własnych pomnożonych przez ich wielokrotność, musimy koniecznie mieć, że jest wartością własną o wielokrotności a zero jest wartością własną o wielokrotności . $Q^2 - Q =0$ $Q$ $z^2 - z$ $Q$ $0$ $1$ $\textrm{tr}(Q) = n-p$ $1$ $n-p$ $p$

— ocram
źródło

(+1) Dobra odpowiedź. Można ograniczyć uwagę do ortogonalnej, zamiast jednolitej ponieważ jest rzeczywiste i symetryczne. Co to jest ? Nie widzę tego zdefiniowanego. Lekko zmieniając argument, można również uniknąć użycia zdegenerowanej normy, w przypadku, gdy wywołuje to konsternację dla tych, którzy się jej nie znają.

V

$V$

Q

$Q$

S C R

$\mathrm{SCR}$

— kardynał

@Kardynał. Słuszna uwaga. SCR (po francusku „Somme des Carrés Résiduels”) powinien mieć format RSS.

— ocram

Dziękujemy za szczegółową odpowiedź Ocram! Niektóre kroki będą wymagały ode mnie więcej spojrzenia, ale mam teraz zarys do przemyślenia - dzięki!

— Tal Galili,

@Glen_b: Och, kilka dni temu dokonałem edycji, aby zmienić SCR na SRR. Nie pamiętam, że SCR jest wspomniany w moim komentarzu. Przepraszam za zamieszanie.

— ocram

@Glen_b: To miało znaczyć RSS: -S Zredagowane ponownie. Thx

— ocram

IMHO, notacja matematyczna komplikuje sprawy. Czysty język wektorów jest czystszy. Model można zapisać gdzie ma standardowy rozkład normalny w a zakłada się, że należy do podprzestrzeni wektorowej . $Y=X\beta+\epsilon$ $\boxed{Y=\mu + \sigma G}$ $G$ $\mathbb{R}^n$ $\mu$ $W \subset \mathbb{R}^n$

Teraz w grę wchodzi język geometrii elementarnej. Najmniejszych kwadratów estymatora z jest tylko : rzut prostopadły obserwowalny na powierzchni , do którego zakłada się, że miejsce. Wektor reszt jest : rzut na ortogonalnego dopełnienia o w . Wymiar wynosi . $\hat\mu$ $\mu$ $P_WY$ $Y$ $W$ $\mu$ $P^\perp_WY$ $W^\perp$ $W$ $\mathbb{R^n}$ $W^\perp$ $\dim(W^\perp)=n-\dim(W)$

Wreszcie, a ma standardowy rozkład normalny na , stąd jego kwadratowa norma ma dystrybucyjnym stopni swobody.

P_{W}^{⊥} Y = P_{W}^{⊥} (μ + σ G) = 0 + σ P_{W}^{⊥} G,

$P^\perp_WY = P^\perp_W(\mu + \sigma G) = 0 + \sigma P^\perp_WG,$

P_{W}^{⊥} G

$P^\perp_WG$

W^{⊥}

$W^\perp$

χ^{2}

$\chi^2$

\dim (W^{⊥})

$\dim(W^\perp)$

Ta demonstracja używa tylko jednego twierdzenia, a właściwie definicji-twierdzenia:

Definicja i twierdzenie . Losowy wektor w ma standardowy rozkład normalny w przestrzeni wektorowej jeśli przyjmuje swoje wartości w i jego współrzędne w jednej ( we wszystkich) podstawie ortonormalnej o są niezależnymi jednowymiarowej standardowe rozkładu normalnego $\mathbb{R}^n$ $U \subset \mathbb{R}^n$ $U$ $\iff$ $U$

(z tego twierdzenia dotyczącego definicji twierdzenie Cochrana jest tak oczywiste, że nie warto go podawać)

— Stéphane Laurent
źródło