Założenie normalności w regresji liniowej


11

Jako założenie regresji liniowej normalność rozkładu błędu jest czasami błędnie „rozszerzana” lub interpretowana jako potrzeba normalności y lub x.

Czy można skonstruować scenariusz / zestaw danych, w którym X i Y są nienormalne, ale wartość błędu jest, a zatem uzyskane szacunki regresji liniowej są prawidłowe?


5
Trywialny przykład: X ma rozkład Bernoulliego (tzn. Przyjmuje wartości 0 lub 1); Y = X + N (0, 0,1). Ani X, ani Y nie są zwykle dystrybuowane same, ale regresja Y na X nadal działa.
Hong Ooi

Myślę, że myślisz o rozkładzie reszt, a nie o rozkładzie zmiennych.
tashuhka


Odpowiedzi:


16

Rozszerzanie komentarza Hong Oois o obraz. Oto obraz zestawu danych, w którym żaden z marginesów nie jest normalnie rozłożony, ale reszty nadal są, dlatego założenia regresji liniowej są nadal aktualne:

wprowadź opis zdjęcia tutaj

Obraz został wygenerowany przez następujący kod R:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.