W jaki sposób wartości rezydualne odnoszą się do podstawowych zakłóceń?

9

W metodzie najmniejszych kwadratów chcemy oszacować nieznane parametry w modelu:

Y_{j} = α + β x_{j} + ε_{j} (j = 1... n)

$Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n)$

Gdy to zrobimy (dla niektórych obserwowanych wartości), otrzymamy dopasowaną linię regresji:

Y_{j} = \hat{α} + \hat{β} x + e_{j} (j = 1, . . . n)

$Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n)$

Teraz oczywiście chcemy sprawdzić niektóre wykresy, aby upewnić się, że założenia zostały spełnione. Załóżmy, że chcesz sprawdzić homoscedastyczność, jednak w tym celu sprawdzamy resztki . Powiedzmy, że badasz wykres wartości rezydualnych i przewidywanych, jeśli to pokazuje nam, że heteroscedastyczność jest widoczna, to w jaki sposób odnosi się to do terminu zaburzenia ? Czy heteroscedastyczność w resztach implikuje heteroscedastyczność pod względem zakłóceń? $e_j$ $\varepsilon_j$

— Danny
źródło

3

Najprostszym sposobem, aby o tym pomyśleć, jest to, że surowe reszty ( ) są szacunkami odpowiednich zakłóceń ( ). Istnieją jednak dodatkowe komplikacje. Na przykład, chociaż zakładamy w standardowym modelu OLS, że błędy / zakłócenia są niezależne, resztki nie mogą być wszystkie. Zasadniczo tylko reszty mogą być niezależne, ponieważ użyłeś stopni swobody do oszacowania modelu średniego, a reszty są ograniczone do zsumowania do $e_j = y_j-\hat y_j$ $\hat\varepsilon_j = e_j$ $N-p-1$ $p-1$ $0$ . Ponadto odchylenie standardowe surowych pozostałości nie jest w rzeczywistości stałe. Zasadniczo linia regresji jest dopasowana w taki sposób, że będzie ona średnio bliższa punktom o większej dźwigni. W rezultacie standardowe odchylenie reszt dla tych punktów jest mniejsze niż odchylenie dla niskich punktów dźwigni. (Aby dowiedzieć się więcej na ten temat, pomocne może być przeczytanie, odpowiedzi tutaj: Interpreting plot.lm () i / lub tutaj: Jak przeprowadzić analizę resztkową dla binarnych / dychotomicznych niezależnych predyktorów w regresji liniowej? )

— gung - Przywróć Monikę
źródło

3

Aby wyjaśnić, najwyżej reszty Np-1 mogą być niezależne, ale zazwyczaj wszystkie są skorelowane; zamiast tego istnieją ich liniowe transformacje, które mogą mieć niezależne komponenty Np-1.

— Glen_b

@Glen_b, dobra uwaga.

— gung - Przywróć Monikę

8

Związek między i jest następujący: $\hat{\varepsilon}$ $\varepsilon$

\hat{ε} = (I - H) ε

$\hat{\varepsilon} = (I-H) \varepsilon$

gdzie , matryca kapelusz jest . $H$ $X(X^TX)^{-1}X^T$

To znaczy, że jest liniową kombinacją wszystkich błędów, ale zazwyczaj większość ciężaru spada na ty. $\hat{\varepsilon}_i$ $i$

Oto przykład z wykorzystaniem carszestawu danych w R. Rozważ punkt zaznaczony na fioletowo:

wprowadź opis zdjęcia tutaj

Nazwijmy to wskazywać . Resztkowe, , gdzie dla pozostałych błędów jest w zakresie -0,02: $i$ $\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\sum_{j\neq i} w_j \varepsilon_j$ $w_j$

wprowadź opis zdjęcia tutaj

Możemy przepisać to jako:

$\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\eta_i$

lub bardziej ogólnie

$\hat{\varepsilon}_i= (1-h_{ii})\varepsilon_i +\eta_i$

gdzie jest -tego elementu przekątnej . Podobnie powyższe to . $h_{ii}$ $i$ $H$ $w_j$ $h_{ij}$

Jeżeli błędy mają identyfikator wówczas w tym przykładzie ważona suma tych innych błędów będzie miała odchylenie standardowe odpowiadające około 1/7 wpływu błędu tej obserwacji na jego resztkową wartość . $N(0,\sigma^2)$ $i$

To znaczy, że w dobrze zachowanych regresjach resztki można w większości traktować jak umiarkowanie głośne oszacowanie nieobserwowalnego terminu błędu. Kiedy bierzemy pod uwagę punkty dalej od centrum, rzeczy działają nieco mniej ładnie (reszta staje się mniej ważona na błędzie, a wagi innych błędów stają się mniej równe).

Przy wielu parametrach lub przy nie tak dobrze rozłożonych, reszty mogą być znacznie mniej podobne do błędów. Możesz spróbować kilku przykładów. $X$

— Glen_b - Przywróć Monikę
źródło

2

To jest właściwe podejście. Potrzebny jest ponadto argument, że przekątne elementy są zwykle „małe”. Dokonuje się tego, pokazując, że ślad jest równy liczbie zmiennych niezależnych (w tym ewentualnego punktu przecięcia) - co wynika bezpośrednio z faktu, że jest to macierz projekcji. Zauważ, że wynik ten jest niezależny od jakichkolwiek założeń dotyczących dystrybucji na poziomie : nie muszą one być normalne. Jest również niezależny od jakiegokolwiek faktycznego wzoru na ; jest to konsekwencja liczby wymiarów.

H

$H$

ε_{i}

$\varepsilon_i$

H

$H$

— whuber

Czy nie byłoby innej okoliczności, w której reszty mogłyby być znacznie mniej podobne do błędów, gdyby liczba obserwacji była niewielka? Zwykle jak @ whuber stwierdza, że ślad jest równy liczbie zmiennych niezależnych implikuje, że jego elementy diagonalne są małe, ale niekoniecznie tak by było, gdyby liczba tych elementów była sama w sobie mała.

n

$n$

H

$H$

n

$n$

— Adam Bailey

@AdamBailey Pewnie, że zdarza się, gdy jest małe ... ale to dlatego, że jest stosunkowo duży, nawet jeśli wynosi tylko 1 lub 2.

n

$n$

p / n

$p/n$

p

$p$

— Glen_b