Dlatego jeśli założymy, że termin błędu jest normalnie dystrybuowany, czy nie oznacza to, że odpowiedź jest również normalnie dystrybuowana?
Nawet zdalnie. Pamiętam, że reszty są normalne, zależnie od deterministycznej części modelu . Oto demonstracja tego, jak to wygląda w praktyce.
Zaczynam od losowego generowania niektórych danych. Następnie określam wynik, który jest funkcją liniową predyktorów i oceniam model.
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
Zobaczmy, jak wyglądają te pozostałości. Podejrzewam, że powinny one być normalnie rozmieszczone, ponieważ w wyniku ydodałem do tego normalny hałas. I rzeczywiście tak jest.

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
Sprawdzając rozkład y, widzimy jednak, że zdecydowanie nie jest to normalne! Nałożyłem funkcję gęstości z tym samym środkiem i wariancją co y, ale to oczywiście okropne dopasowanie!

Powodem tego jest to, że dane wejściowe nie są nawet zdalnie normalne. Nic w tym modelu regresji nie wymaga normalności, z wyjątkiem reszt - nie w zmiennej niezależnej i nie w zmiennej zależnej.
