Co oznaczają normalne wartości resztkowe i co to mówi mi o moich danych?


13

Dość podstawowe pytanie:

Co oznacza normalny rozkład reszt z regresji liniowej? Pod względem tego, w jaki sposób wpływa to na moje oryginalne dane z regresji?

Jestem totalnie zakłopotany, dzięki chłopaki

Odpowiedzi:


5

Regresja liniowa faktycznie modeluje warunkowe oczekiwane wartości wyniku. Oznacza to: jeśli znasz prawdziwe wartości parametrów regresji (powiedzmy i ), podając wartość twojego predyktora X, wypełniając to równaniem będzie masz obliczyć wartość oczekiwaną dla nad wszystkimi (ewentualnego) obserwacji, które mają tę daną wartość dla .β 1 E [ Y | X ] = β 0 + β 1 X Y Xβ0β1

E[Y|X]=β0+β1X
YX

Jednak: tak naprawdę nie oczekujesz, że żadna pojedyncza wartość dla tej podanej wartości będzie dokładnie równa (warunkowej) średniej. Nie dlatego, że twój model jest zły, ale dlatego, że istnieją pewne efekty, których nie uwzględniono (np. Błąd pomiaru). Zatem te wartości dla danych wartości będą oscylować wokół wartości średniej (tj. Geometrycznie: wokół punktu linii regresji dla tego ).X Y X XYXYXX

Założenie o normalności mówi teraz, że różnica między a ich dopasowaniem ma rozkład normalny ze średnią zero. Oznacza to, że jeśli masz wartość , możesz próbkować wartość , najpierw obliczając (tj. Ponownie , punkt na linii regresji), a następnie próbkując z tego rozkład normalny i dodawanie ich: E [ Y | X ] X Y β 0 + β 1 X E [ Y | X ] ϵ Y = E [ Y | X ] + ϵYE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

W skrócie: to rozkład normalny reprezentuje zmienność w wynikach na szczycie zmienności wyjaśnione przez model.

Uwaga: w większości zestawów danych nie ma wielu wartości dla danego (chyba że twój zestaw predykcyjny jest kategoryczny), ale ta normalność dotyczy całej populacji, a nie tylko obserwacji w zbiorze danych.XYX

Uwaga: Zrobiłem uzasadnienie regresji liniowej za pomocą jednego predyktora, ale to samo dotyczy więcej: po prostu zamień „linię” na „hiperpłaszczyzna” w powyższym.


To świetne wytłumaczenie! Jedno pytanie: e rozkład normalny oznaczałby, że zakładasz, że najbardziej prawdopodobne wartości e wynoszą od -1 do +1 (po ich standaryzacji)? Więc w zasadzie używasz rozkładu normalnego zamiast, powiedzmy, rozkładu Poissona, ponieważ rozkład normalny lepiej modeluje zachowanie tych wartości w prawdziwym życiu?
user3813234


0

Normalność reszt to założenie prowadzenia modelu liniowego. Tak więc, jeśli twoje wartości resztowe są normalne, oznacza to, że twoje założenie jest prawidłowe i wnioskowanie modelu (przedziały ufności, prognozy modelu) również powinno być prawidłowe. To takie proste!


Założenie normalności dotyczy błędu nieobserwowalnego (stąd potrzeba założenia), a nie obserwowalnych reszt.
DL Dahly,

2
Tak, ale używasz resztek, aby sprawdzić swoje przypuszczenia dotyczące nieobserwowalnego błędu.
wcampbell

Nie zgadzam się, że normalne reszty gwarantują prawidłowy model regresji. Załóżmy, że masz okrągły model Gaussa z błędami X i Y, które są równe. Zatem przedział ufności linii regresji to . To nie jest jedyny kontrprzykład, jest ich znacznie więcej.  to 
Carl
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.