Potwierdzenie rozkładu reszt w regresji liniowej

17

Załóżmy, że przeprowadziliśmy prostą regresję liniową $y=\beta_0+\beta_1x+u$ , zapisaliśmy reszty $\hat{u_i}$ narysowaliśmy histogram rozkładu reszt. Jeśli otrzymamy coś, co wygląda jak dobrze znana dystrybucja, czy możemy założyć, że nasz termin błędu ma tę dystrybucję? Powiedzmy, że jeśli dowiemy się, że reszty przypominają rozkład normalny, czy uzasadnione jest przyjęcie normalności terminu błędu w populacji? Myślę, że to rozsądne, ale jak to uzasadnić?

r regression residuals

— marcin63
źródło

1

Osobiście trudno mi ocenić normalność na podstawie histogramu (lub wykresu gęstości jądra). Nigdy nie polegałbym na nich jako „ostatecznym” dowodzie. Wykresy QQ są w tym celu znacznie mocniejsze.

18

Wszystko zależy od tego, jak oszacujesz parametry . Zazwyczaj estymatory są liniowe, co oznacza, że reszty są liniowymi funkcjami danych. Kiedy błędy mają rozkład normalny, a następnie tak zrobić danych, skąd tak zrobić pozostałości ( indeksy przypadkach danych, oczywiście). $u_i$ $\hat{u}_i$ $i$

Można sobie wyobrazić (i logicznie możliwe), że gdy reszty wydają się mieć w przybliżeniu rozkład normalny (jednoczynnikowy), wynika to z nietypowych rozkładów błędów. Jednak przy technikach szacowania metodą najmniejszych kwadratów (lub maksymalnego prawdopodobieństwa) transformacja liniowa do obliczenia reszt jest „łagodna” w tym sensie, że funkcja charakterystyczna rozkładu (wielowymiarowego) reszt nie może znacznie różnić się od współczynnika błędów .

W praktyce nigdy nie potrzebujemy, aby błędy były dokładnie rozprowadzane normalnie, więc jest to nieistotny problem. Znacznie większe znaczenie błędów ma to, że (1) ich oczekiwania powinny być bliskie zeru; (2) ich korelacje powinny być niskie; oraz (3) powinna istnieć akceptowalnie mała liczba wartości odstających. Aby to sprawdzić, stosujemy różne testy poprawności dopasowania, testy korelacji i testy wartości odstających (odpowiednio) do reszt. Ostrożne modelowanie regresji zawsze obejmuje przeprowadzanie takich testów (które obejmują różne graficzne wizualizacje reszt, takie jak dostarczane automatycznie metodą R plotpo zastosowaniu do lmklasy).

Innym sposobem na uzyskanie odpowiedzi na to pytanie jest symulacja na podstawie hipotetycznego modelu. Oto trochę (minimalny, jednorazowy) Rkod do wykonania zadania:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

W przypadku n = 32 ten nałożony wykres prawdopodobieństwa 99 zestawów reszt pokazuje, że są one zbliżone do rozkładu błędów (co jest normalną normą), ponieważ równomiernie łączą się z linią odniesienia : $y=x$

Liczba dla n = 32

W przypadku n = 6 mniejsze nachylenie mediany na wykresach prawdopodobieństwa wskazuje, że reszty mają nieco mniejszą wariancję niż błędy, ale ogólnie mają tendencję do normalnego rozkładu, ponieważ większość z nich wystarczająco dobrze śledzi linię odniesienia (biorąc pod uwagę mała wartość ): $n$

Liczba dla n = 6

— Whuber
źródło

rzeczy stałyby się bardziej interesujące, gdybyś dodał powiedz rexp(n)zamiast rnorm(n)generowania danych. Rozkład resztek zbliżyłby się W DRODZE do normy, niż mogłoby się wydawać.

— StasK

Ale jeśli nie założymy, że reszty są normalne, w jaki sposób obliczana jest wartość p wynikowych oszacowanych współczynników? Jakie są statystyki testu?

— Ant

5

y_{i} = x_{i}^{'} β + ϵ_{i}

$y_i = x_i'\beta + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X}\beta + \mathbf{\epsilon}$

e = (I - H) y

$\mathbf{e} = (I-H) \mathbf{y}$

H = X (X^{'} X)^{- 1} X^{'}

$H = X(X'X)^{-1} X'$

e_{i}

$e_i$

(1 - h_{i i})

$(1-h_{ii})$

ϵ_{i}

$\epsilon_i$

h_{i j}

$h_{ij}$

ϵ_{j}, j \neq i

$\epsilon_j, j\neq i$

\sum_{j \neq i} h_{i j}^{2} + h_{i i}^{2} = h_{i i}

$\sum_{j\neq i} h_{ij}^2 + h_{ii}^2 = h_{ii}$

O (1 / n)

$O(1/n)$

ϵ_{i}

$\epsilon_i$

e_{i}

$e_i$

(1 - h_{i i}) ϵ_{i}

$(1-h_{ii})\epsilon_i$

— StasK
źródło

1

Jeśli otrzymamy coś, co wygląda jak dobrze znana dystrybucja, czy możemy założyć, że nasz termin błędu ma tę dystrybucję?

Twierdziłbym, że nie możesz, ponieważ model, który właśnie dopasowałeś, jest nieprawidłowy, jeśli założenie o normalności dotyczące błędów się nie sprawdza. (w tym sensie, że kształt rozkładu jest wyraźnie nienormalny, taki jak Cauchy itp.)

Typowym podejściem zamiast zakładać, że występują błędy rozproszone Poissona, jest wykonanie jakiejś formy transformacji danych, takiej jak log y lub 1 / y w celu znormalizowania reszt. (również prawdziwy model może nie być liniowy, co spowodowałoby, że drukowane reszty wyglądałyby dziwnie rozłożone, mimo że są w rzeczywistości normalne)

Powiedzmy, że jeśli dowiemy się, że reszty przypominają rozkład normalny, czy uzasadnione jest przyjęcie normalności terminu błędu w populacji?

Zakładasz normalność błędów po dopasowaniu do regresji OLS. To, czy musisz przedstawić argumenty za tym roszczeniem, zależy od rodzaju i poziomu Twojej pracy. (często warto przyjrzeć się przyjętej praktyce w terenie)

Teraz, jeśli pozostałości rzeczywiście wydają się być normalnie rozłożone, możesz pogłaskać się po plecach, ponieważ możesz użyć go jako empirycznego dowodu swoich wcześniejszych założeń. :)

— oznacza znaczenie
źródło

0

Tak, to rozsądne. Resztki to błędy. Możesz także spojrzeć na normalny wykres QQ.

— Tomasz
źródło

{\hat{u}}_{i}

$\hat{u}_i$

u

$u$

7

y_{i} - x_{i} \hat{β}

$y_{i} - x_{i} \hat{\beta}$

y_{i} - x_{i} β

$y_{i} - x_{i} \beta$

x

$x$ przybliżającą populację

X

$X$ , dobrze?

— Wayne

1

@Wayne, uważam, że „to” odnosi się do procedury „jeśli dowiemy się, że reszty przypominają rozkład normalny, ... aby założyć normalność warunków błędu w populacji”. Myślę, że zasadniczo masz rację, ale subtelność polega na tym, że reszty są produktem zarówno próbki, jak i metody użytej do oszacowania parametrów. Uważam to za przemyślane i interesujące pytanie.

— whuber

@whuber I would be interested in your take on studentized versus standardized versus raw residuals.

— Michelle