Czy założenie błędów normalnych oznacza, że ​​Y jest również normalne?


12

O ile się nie mylę, zakłada się, że w modelu liniowym rozkład odpowiedzi ma składową systematyczną i składową losową. Termin błędu przechwytuje składową losową. Dlatego jeśli założymy, że termin błędu jest normalnie dystrybuowany, czy nie oznacza to, że odpowiedź jest również normalnie dystrybuowana? Myślę, że tak, ale stwierdzenia takie jak poniższe wydają się dość mylące:

Widać wyraźnie, że jedynym założeniem „normalności” w tym modelu jest to, że reszty (lub „błędy” ) powinny być normalnie rozłożone. Nie zakłada o rozkładzie predyktora x I lub zmiennej odpowiedzi y ı .ϵixiyi

Źródło: Predyktory, odpowiedzi i resztki: co tak naprawdę powinno być normalnie dystrybuowane?


7
xϵ

Odpowiedzi:


19

Y=Xβ+εεN(0,σ2In) XRn×p

Y|{X,β,σ2}N(Xβ,σ2In)εYY

YYE(Yi|Xi)=XiTβε

HHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


σ2In

n×nσ2

n×n

11

Dlatego jeśli założymy, że termin błędu jest normalnie dystrybuowany, czy nie oznacza to, że odpowiedź jest również normalnie dystrybuowana?

Nawet zdalnie. Pamiętam, że reszty są normalne, zależnie od deterministycznej części modelu . Oto demonstracja tego, jak to wygląda w praktyce.

Zaczynam od losowego generowania niektórych danych. Następnie określam wynik, który jest funkcją liniową predyktorów i oceniam model.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Zobaczmy, jak wyglądają te pozostałości. Podejrzewam, że powinny one być normalnie rozmieszczone, ponieważ w wyniku ydodałem do tego normalny hałas. I rzeczywiście tak jest.

wprowadź opis zdjęcia tutaj

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Sprawdzając rozkład y, widzimy jednak, że zdecydowanie nie jest to normalne! Nałożyłem funkcję gęstości z tym samym środkiem i wariancją co y, ale to oczywiście okropne dopasowanie!

Gęstość y

Powodem tego jest to, że dane wejściowe nie są nawet zdalnie normalne. Nic w tym modelu regresji nie wymaga normalności, z wyjątkiem reszt - nie w zmiennej niezależnej i nie w zmiennej zależnej.

Denisty z X


8

Nie, nie ma. Załóżmy na przykład, że mamy model przewidujący wagę sportowców olimpijskich. Podczas gdy waga może być normalnie rozłożona na sportowców w każdym sporcie, nie będzie ona dotyczyła wszystkich sportowców - może nawet nie być jednomodalna.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.