Czy założenie błędów normalnych oznacza, że Y jest również normalne?

12

O ile się nie mylę, zakłada się, że w modelu liniowym rozkład odpowiedzi ma składową systematyczną i składową losową. Termin błędu przechwytuje składową losową. Dlatego jeśli założymy, że termin błędu jest normalnie dystrybuowany, czy nie oznacza to, że odpowiedź jest również normalnie dystrybuowana? Myślę, że tak, ale stwierdzenia takie jak poniższe wydają się dość mylące:

Widać wyraźnie, że jedynym założeniem „normalności” w tym modelu jest to, że reszty (lub „błędy” ) powinny być normalnie rozłożone. Nie zakłada o rozkładzie predyktora lub zmiennej odpowiedzi . $\epsilon_i$ $x_i$ $y_i$

Źródło: Predyktory, odpowiedzi i resztki: co tak naprawdę powinno być normalnie dystrybuowane?

regression assumptions

— Ernest A.
źródło

7

x

$x$

ϵ

$\epsilon$

19

$Y = X \beta + \varepsilon$ $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ $X \in \mathbb R^{n \times p}$

$Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$ $\varepsilon$ $Y$ $Y$

$Y$ $Y$ $E(Y_i|X_i) = X_i^T\beta$ $\varepsilon$

$H$ $H_i = \beta_0 + \beta_1I(\text{12th grader}) + \varepsilon_i$ $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$ $H_i$

— jld
źródło

σ^{2} I_{n}

$\sigma^2 I_n$

n \times n

$n \times n$

σ^{2}

$\sigma^2$

n \times n

$n\times n$

11

Dlatego jeśli założymy, że termin błędu jest normalnie dystrybuowany, czy nie oznacza to, że odpowiedź jest również normalnie dystrybuowana?

Nawet zdalnie. Pamiętam, że reszty są normalne, zależnie od deterministycznej części modelu . Oto demonstracja tego, jak to wygląda w praktyce.

Zaczynam od losowego generowania niektórych danych. Następnie określam wynik, który jest funkcją liniową predyktorów i oceniam model.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Zobaczmy, jak wyglądają te pozostałości. Podejrzewam, że powinny one być normalnie rozmieszczone, ponieważ w wyniku ydodałem do tego normalny hałas. I rzeczywiście tak jest.

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Sprawdzając rozkład y, widzimy jednak, że zdecydowanie nie jest to normalne! Nałożyłem funkcję gęstości z tym samym środkiem i wariancją co y, ale to oczywiście okropne dopasowanie!

Powodem tego jest to, że dane wejściowe nie są nawet zdalnie normalne. Nic w tym modelu regresji nie wymaga normalności, z wyjątkiem reszt - nie w zmiennej niezależnej i nie w zmiennej zależnej.

— Sycorax mówi Przywróć Monikę
źródło

8

Nie, nie ma. Załóżmy na przykład, że mamy model przewidujący wagę sportowców olimpijskich. Podczas gdy waga może być normalnie rozłożona na sportowców w każdym sporcie, nie będzie ona dotyczyła wszystkich sportowców - może nawet nie być jednomodalna.

— Peter Flom - Przywróć Monikę
źródło

Czy założenie błędów normalnych oznacza, że ​​Y jest również normalne?

Czy założenie błędów normalnych oznacza, że Y jest również normalne?