Jak uzyskać macierz wariancji-kowariancji współczynników w regresji liniowej

36

Czytam książkę o regresji liniowej i mam pewne problemy ze zrozumieniem macierzy wariancji-kowariancji : $\mathbf{b}$

wprowadź opis zdjęcia tutaj

Elementy po przekątnej są dość łatwe, ale te o przekątnej są nieco trudniejsze, co mnie że

σ (b_{0}, b_{1}) = mi (b_{0} b_{1}) - mi (b_{0}) mi (b_{1}) = mi (b_{0} b_{1}) - β_{0} β_{1}

$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

ale tutaj nie ma śladu i . $\beta_0$ $\beta_1$

regression

— co było do okazania
źródło

3

Powiązane pytanie: stats.stackexchange.com/questions/44838/…

— ocram

2

Która jest książka?

— Konstantinos

Neter i wsp., Applied Linear Regression Models, 1983, strona 216. Ten sam materiał można znaleźć w Applied Linear Statistics Models, wydanie 5, strona 207.

— akavalar

53

To jest naprawdę fajne pytanie, które podważa twoje podstawowe rozumienie regresji.

Najpierw usuń wszelkie początkowe nieporozumienia dotyczące notacji. Patrzymy na regresję:

y = b_{0} + b_{1} x + \hat{u}

$y=b_0+b_1x+\hat{u}$

gdzie i są estymatorami prawdziwych i , a są regresji. Zauważ, że leżąca u podstaw prawdziwa i nierozdzielona regresja jest zatem oznaczona jako: $b_0$ $b_1$ $\beta_0$ $\beta_1$ $\hat{u}$

y = β_{0} + β_{1} x + u

$y=\beta_0+\beta_1x+u$

Oczekiwano i wariancji . Niektóre książki oznaczają jako i tutaj dostosowujemy tę konwencję. Korzystamy również z notacji macierzowej, gdzie b jest wektorem 2x1, który zawiera estymatory , a mianowicie . (Również ze względu na przejrzystość traktuję X jako ustalony w poniższych obliczeniach.) $E[u]=0$ $E[u^2]=\sigma^2$ $b$ $\hat{\beta}$ $\beta=[\beta_0, \beta_1]'$ $b=[b_0, b_1]'$

Teraz twoje pytanie. Twoja formuła kowariancji jest rzeczywiście poprawna, to znaczy:

σ (b_{0}, b_{1}) = mi (b_{0} b_{1}) - mi (b_{0}) mi (b_{1}) = mi (b_{0} b_{1}) - β_{0} β_{1}

$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

Myślę, że chcesz wiedzieć, skąd się w tej formule prawdziwe nieobserwowane współczynniki ? W rzeczywistości zostaną anulowane, jeśli pójdziemy o krok dalej, rozszerzając formułę. Aby to zobaczyć, zauważ, że wariancja populacji estymatora jest dana przez: $\beta_0, \beta_1$

V. za r (\hat{β}) = σ^{2)} (X^{'} X)^{- 1}

$Var(\hat\beta)=\sigma^2(X'X)^{-1}$

Ta matryca zawiera wariancje w elementach ukośnych i kowariancje w elementach nieprzekątnych.

Aby dojść do powyższej formuły, uogólnijmy roszczenie za pomocą notacji macierzowej. Oznaczmy zatem wariancję z i oczekiwanie z . $Var[\cdot]$ $E[\cdot]$

V. za r [b] = mi [b^{2)}] - mi [b] mi [b^{'}]

$Var[b]=E[b^2]-E[b]E[b']$

Zasadniczo mamy ogólną formułę wariancji, używając tylko notacji macierzowej. Równanie rozwiązuje się po podstawieniu w wyrażeniu standardowym estymatora . Załóżmy również, że jest obiektywnym estymatorem. W ten sposób uzyskujemy: $b=(X'X)^{-1}X'y$ $E[b]=\beta$

mi [((X^{'} X)^{- 1} X^{'} y)^{2)}] - \underset{2) \times 2)}{β^{2)}}

$E[((X'X)^{-1}X'y)^2] - \underset{2 \times 2}{\beta^2}$

Zauważ, że mamy po prawej stronie macierz - 2x2, a mianowicie , ale w tym momencie możesz już zgadywać, co stanie się wkrótce z tym terminem. $\beta^2$ $bb'$

Zastępując naszym wyrażeniem prawdziwego procesu generowania danych powyżej, mamy: $y$

\begin{aligned} mi [((X^{'} X)^{- 1} X^{'} y)^{2)}] - β^{2)} & = mi [((X^{'} X)^{- 1} X^{'} (X β + u))^{2)}] - β^{2)} \\ = mi [(\underset{= ja}{\underset{⏟}{(X^{'} X)^{- 1} X^{'} X}} β + (X^{'} X)^{- 1} X^{'} u)^{2)}] - β^{2)} \\ = mi [(β + (X^{'} X)^{- 1} X^{'} u)^{2)}] - β^{2)} \\ = β^{2)} + mi [(X^{'} X)^{- 1} X^{'} u)^{2)}] - β^{2)} \end{aligned}

$\begin{align*} E\Big[\Big((X'X)^{-1}X'y\Big)^2\Big] - \beta^2 &= E\Big[\Big((X'X)^{-1}X'(X\beta+u)\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\underbrace{(X'X)^{-1}X'X}_{=I}\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= \beta^2+E\Big[\Big(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \end{align*}$

ponieważ . Ponadto, kwadratowy termin anuluje się zgodnie z oczekiwaniami. $E[u]=0$ $\beta^2$

Mamy zatem:

V. za r [b] = ((X^{'} X)^{- 1} X^{'})^{2)} mi [u^{2)}]

$Var[b]=((X'X)^{-1}X')^2E[u^2]$

Według liniowości oczekiwań. Zauważ, że z założenia i ponieważ jest macierzą symetryczną , a zatem taką samą jak jej transpozycja. Wreszcie dochodzimy do $E[u^2]=\sigma^2$ $((X'X)^{-1}X')^2=(X'X)^{-1}X'X(X'X)'^{-1}=(X'X)^{-1}$ $X'X$ $K\times K$

V. za r [b] = σ^{2)} (X^{'} X)^{- 1}

$Var[b]=\sigma^2(X'X)^{-1}$

Teraz, gdy pozbyliśmy się wszystkich warunków . Intuicyjnie wariancja estymatora jest niezależna od wartości rzeczywistego podstawowego współczynnika, ponieważ sama w sobie nie jest to zmienna losowa. Wynik jest ważny dla wszystkich pojedynczych elementów w macierzy kowariancji wariancji, jak pokazano w książce, a zatem obowiązuje również dla elementów z odpowiednio aby anulować odpowiednio. Jedyny problem polegał na tym, że zastosowałeś ogólną formułę wariancji, która początkowo nie odzwierciedla tego anulowania. $\beta$ $\beta_0\beta_1$

Ostatecznie wariancja współczynników zmniejsza się do i jest niezależna od . Ale co to znaczy? (Myślę, że poprosiłeś także o bardziej ogólne zrozumienie ogólnej macierzy kowariancji) $\sigma^2(X'X)^{-1}$ $\beta$

Spójrz na wzór w książce. Po prostu zapewnia, że wariancja estymatora wzrasta, gdy prawdziwy błąd leżący u podstaw błędu jest bardziej hałaśliwy ( wzrasta), ale maleje, gdy zwiększa się rozpiętość X. Ponieważ mając więcej obserwacji rozłożonych wokół prawdziwej wartości, ogólnie możesz zbudować estymator, który jest bardziej dokładny, a tym samym bliższy prawdziwej . Z drugiej strony, warunki kowariancji na przekątnej stają się praktycznie istotne w testowaniu hipotez wspólnych hipotez, takich jak . Poza tym są trochę krówki, naprawdę. Mam nadzieję, że to wyjaśnia wszystkie pytania. $\sigma^2$ $\beta$ $b_0=b_1=0$

— Majte
źródło

a gdy utrzymujemy stały rozkład i zmniejszamy x, błąd standardowy przecięcia staje się mniejszy, co ma sens.

— Theta30

Nie śledzę rozszerzenia kwadratu. Dlaczego nie jest uproszczony do ?

((X^{'} X)^{- 1} X^{'})^{2} = ((X^{'} X)^{- 1} X^{'}) ((X^{'} X)^{- 1} X^{'}) = X^{- 2}

$((X'X)^{-1}X')^2 = ((X'X)^{-1}X')((X'X)^{-1}X') = X^{-2}$

— David

2

W twoim przypadku mamy

X^{'} X = [\begin{matrix} n & \sum X_{ja} \\ \sum X_{ja} & \sum X_{ja}^{2)} \end{matrix}]

$X'X=\begin{bmatrix}n & \sum X_i\\\sum X_i & \sum X_i^2\end{bmatrix}$

Odwróć tę macierz, a otrzymasz pożądany wynik.

— mpiktas
źródło

1

Wygląda na to, że są wartościami przewidywanymi (wartościami oczekiwanymi). Przełączają między i . $\beta_0 \beta_1$ $E(b_0)=\beta_0$ $E(b_1)=\beta_1$

— Drew75
źródło

β_{0}

$\beta_0$ i są na ogół nieznane, na co można się przełączyć?

β_{1}

$\beta_1$

— qed

Myślę, że rozumiem zamieszanie i myślę, że powinni napisać zamiast . Oto kolejny post, który przechodzi przez obliczenia: link

β_{0}^{*}

$\beta_0^*$

β_{0}

$\beta_0$

— Drew75

2

@qed: aby pobrać próbki szacunkowych nieznanych ilości.

— Glen_b