Jak niepoprawny jest model regresji, gdy założenia nie są spełnione?

Przy dopasowywaniu modelu regresji, co się stanie, jeśli założenia wyników nie zostaną spełnione, w szczególności:

Co się stanie, jeśli pozostałości nie będą homoscedastyczne? Jeśli reszty wykazują rosnący lub malejący wzór na wykresie Resztki vs. Dopasowany.
Co się stanie, jeśli reszty nie zostaną normalnie rozłożone i nie przejdą testu Shapiro-Wilka? Test normalności Shapiro-Wilka jest bardzo rygorystycznym testem, a czasem nawet jeśli wykres normalnej jakości wydaje się dość rozsądny, dane nie przejdą testu.
Co się stanie, jeśli jeden lub więcej predyktorów nie jest normalnie rozłożonych, nie wygląda poprawnie na wykresie Normal-QQ lub jeśli dane nie przejdą testu Shapiro-Wilka?

Rozumiem, że nie ma twardego podziału czarno-białego, że 0,94 ma rację, a 0,95 jest racja, a w pytaniu chcę wiedzieć:

Co oznacza brak normalności dla modelu, który jest dobrze dopasowany zgodnie z wartością R-Squared. Czy staje się mniej niezawodny, czy całkowicie bezużyteczny?
W jakim stopniu odchylenie jest dopuszczalne, czy w ogóle jest dopuszczalne?
Czy po zastosowaniu transformacji danych w celu spełnienia kryteriów normalności model staje się lepszy, jeśli dane są bardziej normalne (wyższa wartość P w teście Shapiro-Wilka, lepiej wygląda na normalnym wykresie QQ), czy jest bezużyteczne (równie dobre lub źle w porównaniu do oryginału), dopóki dane nie przejdą testu normalności?

— SpeedBirdNine
źródło

Myślę, że odpowiedź tylko na tytuł brzmi „Tak”.

— Thomas Cleberg

@ThomasCleberg Ciekawa odpowiedź. Czy to samo mówisz, gdy ludzie pytają „Jak się masz?” :)

— JohnK

Nie, ale pytają mnie, czy żyję. :)

— Thomas Cleberg,

Podstawowe pytanie, które należy sobie zadać: „Do czego chcesz użyć modelu regresji?”

— Floris,

Co się stanie, jeśli pozostałości nie będą homoscedastyczne? Jeśli reszty wykazują rosnący lub malejący wzór na wykresie Resztki vs. Dopasowany.

Jeśli warunek błędu nie jest homoscedastyczny (używamy reszt jako proxy dla nieobserwowalnego terminu błędu), estymator OLS jest nadal spójny i bezstronny, ale nie jest już najbardziej wydajny w klasie estymatorów liniowych. To estymator GLS cieszy się teraz tą właściwością.

Co się stanie, jeśli reszty nie zostaną normalnie rozłożone i nie przejdą testu Shapiro-Wilka? Test normalności Shapiro-Wilka jest bardzo rygorystycznym testem, a czasem nawet jeśli wykres normalnej jakości wydaje się dość rozsądny, dane nie przejdą testu.

Twierdzenie Gaussa-Markowa nie wymaga normalności. Estymator OLS jest nadal NIEBIESKI, ale bez normalności będziesz miał trudności z wnioskowaniem, tj. Testowaniem hipotez i przedziałami ufności, przynajmniej dla skończonych wielkości próby. Jednak wciąż jest bootstrap.

Asymptotycznie jest to mniejszy problem, ponieważ estymator OLS ma ograniczający rozkład normalny w łagodnych warunkach regularności.

Co się stanie, jeśli jeden lub więcej predyktorów nie jest normalnie rozłożonych, nie wygląda poprawnie na wykresie Normal-QQ lub jeśli dane nie przejdą testu Shapiro-Wilka?

O ile mi wiadomo, predyktory są albo ustalone, albo regresja jest od nich uzależniona. Ogranicza to efekt nienormalności.

Co oznacza brak normalności dla modelu, który jest dobrze dopasowany zgodnie z wartością R-Squared. Czy staje się mniej niezawodny, czy całkowicie bezużyteczny?

R-kwadrat to proporcja wariancji wyjaśniona przez model. Nie wymaga założenia normalności i niezależnie od tego jest miarą dobroci dopasowania. Jeśli jednak chcesz go użyć do częściowego testu F, to zupełnie inna historia.

W jakim stopniu odchylenie jest dopuszczalne, czy w ogóle jest dopuszczalne?

Masz na myśli odstępstwo od normalności, prawda? To naprawdę zależy od twoich celów, ponieważ, jak powiedziałem, wnioskowanie staje się trudne przy braku normalności, ale nie jest niemożliwe (bootstrap!).

Czy po zastosowaniu transformacji danych w celu spełnienia kryteriów normalności model staje się lepszy, jeśli dane są bardziej normalne (wyższa wartość P w teście Shapiro-Wilka, lepiej wygląda na normalnym wykresie QQ), czy jest bezużyteczne (równie dobre lub źle w porównaniu do oryginału), dopóki dane nie przejdą testu normalności?

Krótko mówiąc, jeśli masz wszystkie założenia Gaussa-Markowa plus normalność, to estymator OLS jest Najlepszy Bezstronny (BUE), tj. Najbardziej wydajny we wszystkich klasach estymatorów - osiągnięta jest Dolna Granica Cramera-Rao. Jest to oczywiście pożądane, ale to nie koniec świata, jeśli tak się nie stanie. Obowiązują powyższe uwagi.

Jeśli chodzi o transformacje, należy pamiętać, że chociaż rozkład odpowiedzi może być zbliżony do normalności, interpretacja może nie być później prosta.

To tylko kilka krótkich odpowiedzi na twoje pytania. Wydajesz się być szczególnie zaniepokojony implikacjami nienormalności. Ogólnie rzecz biorąc, powiedziałbym, że nie jest to tak katastrofalne, jak ludzie (wmuszono?), I istnieją obejścia. Dwa cytowane przeze mnie odniesienia są dobrym punktem wyjścia do dalszej lektury, z których pierwszy ma charakter teoretyczny.

Referencje :

Hayashi, Fumio. : „Econometrics.”, Princeton University Press, 2000

Kutner, Michael H. i in. „Zastosowane liniowe modele statystyczne.”, McGraw-Hill Irwin, 2005.

— JohnK
źródło

Odnosząc się do punktu, w którym założenia Gaussa-Markowa plus normalność oznaczają, że OLS jest najbardziej wydajnym ze wszystkich estymatorów (nie tylko liniowych), chciałbym podkreślić fakt, że jednym ze wspomnianych założeń jest to, że średnia warunkowa wrt jest liniowa parametry . Jeśli zakładasz, że bazowy model jest liniowy, nic dziwnego, że estymator liniowy (OLS) okazał się lepszy od wszystkich innych estymatorów (liniowych lub nie).

Y

$Y$

X_{i}

$X_i$

β_{i}

$\beta_i$

— DeltaIV

@DeltaIV Myślę, że jesteś zdezorientowany, ponieważ mówimy o liniowych estymatorach w odniesieniu do odpowiedzi , .

y

$\mathbf{y}$

— JohnK

Właściwie oba punkty są prawdziwe. Jedną z hipotez GM jest to, że idealny model jest liniowy w , patrz: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem Jednocześnie prawdą jest to, co mówisz: OLS jest estymatorem , a nie . Zatem, gdy mówimy, że jest liniowy, mamy na myśli, że jest liniowy w iid zmiennych losowych .

β_{i}

$\beta_i$

β_{i}

$\beta_i$

Y

$Y$

Y_{1}, \dots, Y_{n}

$Y_1,\ldots,Y_n$

— DeltaIV

@DeltaIV Co rozumiesz przez „idealny model”? To prawdziwy model, który ma parametry liniowe. Nie ogranicza nas to jednak do rozważenia jako estymatorów jedynie liniowych funkcji odpowiedzi. GM stwierdza, że jeśli ograniczymy naszą uwagę w liniowych funkcjach odpowiedzi, wówczas OLS będzie NIEBIESKI pod pewnymi dodatkowymi założeniami. Teraz, jeśli przyjmiemy również normalność, to bez względu na to, jaką funkcję odpowiedzi rozważasz , po prostu nie możesz zrobić lepiej niż OLS, pod warunkiem, że estymator jest bezstronny.

— JohnK

model idealny = model rzeczywisty. Jasne, moglibyśmy rozważyć funkcje nieliniowe aby oszacować . Próbowałem wyjaśnić, że w moim drugim komentarzu zgadzam się.

Y_{i}

$Y_i$

β_{i}

$\beta_i$

— DeltaIV