Co się stanie, jeśli pozostałości nie będą homoscedastyczne? Jeśli reszty wykazują rosnący lub malejący wzór na wykresie Resztki vs. Dopasowany.
Jeśli warunek błędu nie jest homoscedastyczny (używamy reszt jako proxy dla nieobserwowalnego terminu błędu), estymator OLS jest nadal spójny i bezstronny, ale nie jest już najbardziej wydajny w klasie estymatorów liniowych. To estymator GLS cieszy się teraz tą właściwością.
Co się stanie, jeśli reszty nie zostaną normalnie rozłożone i nie przejdą testu Shapiro-Wilka? Test normalności Shapiro-Wilka jest bardzo rygorystycznym testem, a czasem nawet jeśli wykres normalnej jakości wydaje się dość rozsądny, dane nie przejdą testu.
Twierdzenie Gaussa-Markowa nie wymaga normalności. Estymator OLS jest nadal NIEBIESKI, ale bez normalności będziesz miał trudności z wnioskowaniem, tj. Testowaniem hipotez i przedziałami ufności, przynajmniej dla skończonych wielkości próby. Jednak wciąż jest bootstrap.
Asymptotycznie jest to mniejszy problem, ponieważ estymator OLS ma ograniczający rozkład normalny w łagodnych warunkach regularności.
Co się stanie, jeśli jeden lub więcej predyktorów nie jest normalnie rozłożonych, nie wygląda poprawnie na wykresie Normal-QQ lub jeśli dane nie przejdą testu Shapiro-Wilka?
O ile mi wiadomo, predyktory są albo ustalone, albo regresja jest od nich uzależniona. Ogranicza to efekt nienormalności.
Co oznacza brak normalności dla modelu, który jest dobrze dopasowany zgodnie z wartością R-Squared. Czy staje się mniej niezawodny, czy całkowicie bezużyteczny?
R-kwadrat to proporcja wariancji wyjaśniona przez model. Nie wymaga założenia normalności i niezależnie od tego jest miarą dobroci dopasowania. Jeśli jednak chcesz go użyć do częściowego testu F, to zupełnie inna historia.
W jakim stopniu odchylenie jest dopuszczalne, czy w ogóle jest dopuszczalne?
Masz na myśli odstępstwo od normalności, prawda? To naprawdę zależy od twoich celów, ponieważ, jak powiedziałem, wnioskowanie staje się trudne przy braku normalności, ale nie jest niemożliwe (bootstrap!).
Czy po zastosowaniu transformacji danych w celu spełnienia kryteriów normalności model staje się lepszy, jeśli dane są bardziej normalne (wyższa wartość P w teście Shapiro-Wilka, lepiej wygląda na normalnym wykresie QQ), czy jest bezużyteczne (równie dobre lub źle w porównaniu do oryginału), dopóki dane nie przejdą testu normalności?
Krótko mówiąc, jeśli masz wszystkie założenia Gaussa-Markowa plus normalność, to estymator OLS jest Najlepszy Bezstronny (BUE), tj. Najbardziej wydajny we wszystkich klasach estymatorów - osiągnięta jest Dolna Granica Cramera-Rao. Jest to oczywiście pożądane, ale to nie koniec świata, jeśli tak się nie stanie. Obowiązują powyższe uwagi.
Jeśli chodzi o transformacje, należy pamiętać, że chociaż rozkład odpowiedzi może być zbliżony do normalności, interpretacja może nie być później prosta.
To tylko kilka krótkich odpowiedzi na twoje pytania. Wydajesz się być szczególnie zaniepokojony implikacjami nienormalności. Ogólnie rzecz biorąc, powiedziałbym, że nie jest to tak katastrofalne, jak ludzie (wmuszono?), I istnieją obejścia. Dwa cytowane przeze mnie odniesienia są dobrym punktem wyjścia do dalszej lektury, z których pierwszy ma charakter teoretyczny.
Referencje :
Hayashi, Fumio. : „Econometrics.”, Princeton University Press, 2000
Kutner, Michael H. i in. „Zastosowane liniowe modele statystyczne.”, McGraw-Hill Irwin, 2005.