Jakie są konsekwencje niestałej wariancji warunków błędu w regresji liniowej?

Jednym z założeń regresji liniowej jest to, że powinna istnieć stała wariancja w kategoriach błędów oraz że przedziały ufności i testy hipotez związane z modelem opierają się na tym założeniu. Co dokładnie dzieje się, gdy terminy błędów nie mają stałej wariancji?

— Kira
źródło

Konsekwencje heteroscedastyczności są następujące:

Zwykły estymator najmniejszych kwadratów (OLS) jest nadal spójny, ale nie jest już wydajny . $\hat{\mathbf{b}} = \left(X'X \right)X'\mathbf{y}$
Oszacowanie gdzie nie jest już spójnym estymatorem dla macierzy kowariancji estymatora . Może być zarówno stronniczy, jak i niekonsekwentny. W praktyce może to znacznie nie docenić wariancji. $\hat{\mathrm{Var}}\left(\mathbf{b} \right) = \left( X'X\right)^{-1} \hat{\sigma}^2$ $\hat{\sigma}^2 = \frac{1}{n-k} \mathbf{e'}{\mathbf{e}}$ $\hat{\mathbf{b}}$

Punkt (1) nie może być poważnym problemem; i tak ludzie często używają zwykłego estymatora OLS. Ale punkt 2 musi zostać rozwiązany. Co robić?

Potrzebujesz standardowych błędów zgodnych z heteroscedastycznością . Standardowym podejściem jest oparcie się na założeniach dużej próby, asymptotycznych wynikach i oszacowanie wariancji przy użyciu: $\mathbf{b}$

\hat{V a r} (b) = \frac{1}{n} {(\frac{X^{'} X}{n})}^{- 1} S {(\frac{X^{'} X}{n})}^{- 1}

$\hat{\mathrm{Var}}\left(\mathbf{b}\right)=\frac{1}{n}\left( \frac{X'X}{n} \right)^{-1} S \left( \frac{X'X}{n} \right)^{-1}$ gdzie jest szacowane jako .

S

$S$

S = \frac{1}{n - k} \sum_{i} (x_{i} e_{i}) {(x_{i} e_{i})}^{'}

$S = \frac{1}{n-k}\sum_i \left(\mathbf{x}_i e_i\right) \left(\mathbf{x}_i e_i \right)'$

Daje to standardowe błędy zgodne z heteroskedastycznością. Są one również znane jako standardowe błędy Hubera-White'a, solidne błędy standardowe, estymator „kanapkowy” itp. Każdy podstawowy pakiet standardowych statystyk ma opcję solidnych błędów standardowych. Użyj tego!

Niektóre dodatkowe komentarze (aktualizacja)

Jeśli heteroskedastyczność jest wystarczająco duża, regularne oszacowanie OLS może mieć duże problemy praktyczne. Mimo że wciąż jest to spójny estymator, możesz mieć problemy z małą próbką, gdzie całe oszacowanie jest oparte na kilku obserwacjach o dużej zmienności. (Do tego nawiązuje @ seanv507 w komentarzach). Estymator OLS jest nieefektywny, ponieważ przypisuje większą wagę obserwacjom o dużej zmienności niż optymalnym. Szacunki mogą być bardzo głośne.

Problem z próbą naprawienia nieefektywności polega na tym, że prawdopodobnie nie znasz również macierzy kowariancji dla terminów błędów, dlatego użycie czegoś takiego jak GLS może pogorszyć sytuację, jeśli twoja ocena terminu błędu macierzy kowariancji jest śmieciowa.

Również standardowe błędy Hubera-White'a, które podałem powyżej, mogą mieć duże problemy w małych próbkach. Istnieje długa literatura na ten temat. Na przykład. patrz Imbens i Kolesar (2016), „Solidne standardowe błędy w małych próbkach: niektóre praktyczne porady”.

Kierunek do dalszych badań:

Jeśli jest to samodzielna nauka, następną praktyczną rzeczą do rozważenia są klastry standardowe błędy. Poprawiają one dowolną korelację w ramach klastrów.

— Matthew Gunn
źródło

Matthew - Myślę, że bardziej praktyczne problemy wyjaśniłyby punkt (1). np. czy estymator nie byłby „stronniczy” w stosunku do regionów o większej wariancji? - co byłoby większym problemem, gdyby regiony te były dalekie od średniej powodującej wysoką dźwignię.

— seanv507

@ Seanv507 heteroskedasticity nie odchyla szacunków OLS. Myślę, że masz na myśli nieefektywność. Równomiernie ważąc obserwacje o dużej wariancji i obserwacje o niskiej wariancji, estymator OLS ma większą wariancję niż jest teoretycznie osiągalny przy czymś takim jak odwrotne ważenie wariancji . To, czy chcesz użyć swoich oszacowań w fazie szacowania (tj. Do oszacowania ), zależy od tego, ile, jak wierzysz, znasz .

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbf{b}$

σ_{i}^{2}

$\sigma^2_i$

— Matthew Gunn

Matthew, wiem, że nie wprowadza uprzedzeń (przepraszam [do ciebie i OP] za użycie terminu w cudzysłowach :) Nie mogłem wymyślić odpowiedniego terminu). Ale staram się wyciągnąć praktyczne implikacje (i sugeruję, że OP chce je zrozumieć) - kiedy / dlaczego punkt (1) nie jest poważnym problemem. Czy nie zgadzasz się, że efekt jest taki, że zależy bardziej od regionu dużej wariancji, niż można by się intuicyjnie oczekiwać / chcieć. (Intuicyjne dopasowanie linii prostej byłoby takie, że każdy region ma taką samą wagę, podczas gdy faktycznie OLS będzie się bardziej koncentrować na wysokiej regiony wariancji).

b

$\mathbb b$

— seanv507

@ seanv507 zachęcamy do dodania własnej odpowiedzi!

— Matthew Gunn

Zamiast używać odpornych na heteroskedastyczność standardowych błędów (które Ed Leamer w swoim artykule z 2010 r. „Tantal w drodze do Asymptopii” nazywa myciem białych ), można również spróbować poprawić szacunki punktowe (wraz z oszacowaniem wariancji) dla heteroskedastyczności przez WLS. Warto o tym wspomnieć w swojej odpowiedzi.

— Richard Hardy,

Cóż, krótka odpowiedź brzmi: twój model jest zły, tzn

Aby zwykli najmniejszych kwadratów być B est L inear U nbiased E stimator stała zmienność warunków błędów zakłada.
Założenia Gaussa-Markowa - jeśli są spełnione - gwarantują, że estymator najmniejszych kwadratów dla współczynników jest obiektywny i wykazuje minimalną wariancję wśród wszystkich obiektywnych estymatorów liniowych. $\beta$

Tak więc w przypadku heteroscedastyczności występują problemy z oszacowaniem macierzy wariancji-kowariancji, które prowadzą do błędnych standardowych błędów współczynników, co z kolei prowadzi do błędnych statystyk t i wartości p. Krótko mówiąc, jeśli terminy błędów nie mają stałej wariancji, zwykłe najmniejsze kwadraty nie są najskuteczniejszym sposobem oszacowania. Spójrz na to powiązane pytanie.

— Dawidski
źródło

„Heteroscedastyczność” utrudnia oszacowanie prawdziwego odchylenia standardowego błędów prognozy. Może to prowadzić do zbyt szerokich lub zbyt wąskich przedziałów ufności (w szczególności będą one zbyt wąskie dla prognoz poza próbą, jeśli wariancja błędów rośnie w czasie).

Ponadto model regresji może zbyt mocno koncentrować się na podzbiorze danych.

Dobry odnośnik: Testowanie założeń regresji liniowej

— oW_
źródło