Odpowiedzi:
Konsekwencje heteroscedastyczności są następujące:
Zwykły estymator najmniejszych kwadratów (OLS) jest nadal spójny, ale nie jest już wydajny .
Oszacowanie gdzie nie jest już spójnym estymatorem dla macierzy kowariancji estymatora . Może być zarówno stronniczy, jak i niekonsekwentny. W praktyce może to znacznie nie docenić wariancji.
Punkt (1) nie może być poważnym problemem; i tak ludzie często używają zwykłego estymatora OLS. Ale punkt 2 musi zostać rozwiązany. Co robić?
Potrzebujesz standardowych błędów zgodnych z heteroscedastycznością . Standardowym podejściem jest oparcie się na założeniach dużej próby, asymptotycznych wynikach i oszacowanie wariancji przy użyciu:
Daje to standardowe błędy zgodne z heteroskedastycznością. Są one również znane jako standardowe błędy Hubera-White'a, solidne błędy standardowe, estymator „kanapkowy” itp. Każdy podstawowy pakiet standardowych statystyk ma opcję solidnych błędów standardowych. Użyj tego!
Jeśli heteroskedastyczność jest wystarczająco duża, regularne oszacowanie OLS może mieć duże problemy praktyczne. Mimo że wciąż jest to spójny estymator, możesz mieć problemy z małą próbką, gdzie całe oszacowanie jest oparte na kilku obserwacjach o dużej zmienności. (Do tego nawiązuje @ seanv507 w komentarzach). Estymator OLS jest nieefektywny, ponieważ przypisuje większą wagę obserwacjom o dużej zmienności niż optymalnym. Szacunki mogą być bardzo głośne.
Problem z próbą naprawienia nieefektywności polega na tym, że prawdopodobnie nie znasz również macierzy kowariancji dla terminów błędów, dlatego użycie czegoś takiego jak GLS może pogorszyć sytuację, jeśli twoja ocena terminu błędu macierzy kowariancji jest śmieciowa.
Również standardowe błędy Hubera-White'a, które podałem powyżej, mogą mieć duże problemy w małych próbkach. Istnieje długa literatura na ten temat. Na przykład. patrz Imbens i Kolesar (2016), „Solidne standardowe błędy w małych próbkach: niektóre praktyczne porady”.
Jeśli jest to samodzielna nauka, następną praktyczną rzeczą do rozważenia są klastry standardowe błędy. Poprawiają one dowolną korelację w ramach klastrów.
Cóż, krótka odpowiedź brzmi: twój model jest zły, tzn
Tak więc w przypadku heteroscedastyczności występują problemy z oszacowaniem macierzy wariancji-kowariancji, które prowadzą do błędnych standardowych błędów współczynników, co z kolei prowadzi do błędnych statystyk t i wartości p. Krótko mówiąc, jeśli terminy błędów nie mają stałej wariancji, zwykłe najmniejsze kwadraty nie są najskuteczniejszym sposobem oszacowania. Spójrz na to powiązane pytanie.
„Heteroscedastyczność” utrudnia oszacowanie prawdziwego odchylenia standardowego błędów prognozy. Może to prowadzić do zbyt szerokich lub zbyt wąskich przedziałów ufności (w szczególności będą one zbyt wąskie dla prognoz poza próbą, jeśli wariancja błędów rośnie w czasie).
Ponadto model regresji może zbyt mocno koncentrować się na podzbiorze danych.
Dobry odnośnik: Testowanie założeń regresji liniowej