10

Załóżmy, że mamy model . $Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i$

Regresja ma wiele założeń, na przykład, że błędy powinny być normalnie rozłożone ze średnią zerową i stałą wariancją. Nauczono mnie sprawdzać te założenia przy użyciu normalnego wykresu QQ w celu przetestowania normalności reszt oraz wykresu reszt względem dopasowanego, aby sprawdzić, czy reszty różnią się wokół zera ze stałą wariancją. $\epsilon_i$ $e_i = Y_i - \hat{Y}_i$

Jednak wszystkie te testy dotyczą reszt, a nie błędów.

Z tego, co rozumiem, błędy są definiowane jako odchylenie każdej obserwacji od ich „prawdziwej” wartości średniej. Możemy więc napisać . Błędy te nie mogą być przez nas zaobserwowane. * $\epsilon_i = Y_i - \mathbb{E}[Y_i]$

Moje pytanie brzmi: jak dobrą robotę robią reszta w naśladowaniu błędów?

Jeśli założenia wydają się być spełnione w odniesieniu do reszt, czy to oznacza, że są one również spełnione w przypadku błędów? Czy istnieją inne (lepsze) sposoby testowania założeń, takie jak dopasowanie modelu do testowego zestawu danych i uzyskanie z niego pozostałości?

* Co więcej, czy nie wymaga to poprawnego określenia modelu ? Oznacza to, że odpowiedź naprawdę ma związek z predyktorami itd. W sposób określony przez model. $X_1, X_2,$

Jeśli brakuje niektórych predyktorów (powiedzmy ), to oczekiwanie nie byłoby nawet prawdziwym środkiem, a dalsza analiza na niewłaściwym modelu wydaje się bezcelowa. $X_{k+1}\ \text{to}\ X_p$ $\mathbb{E}[Y_i] = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik}$

Jak sprawdzamy, czy model jest poprawny?

regression residuals error

— mai
źródło

9

Resztki są naszymi szacunkami warunków błędu

Krótka odpowiedź na to pytanie jest stosunkowo prosta: założenia modelu regresji są założeniami dotyczącymi zachowania warunków błędu, a reszty są naszymi szacunkami warunków błędu. I tak też , badanie zachowania zaobserwowanych reszt mówi nam, czy założenia dotyczące warunków błędu są wiarygodne.

Aby bardziej szczegółowo zrozumieć tę ogólną linię rozumowania, pomocne jest szczegółowe zbadanie zachowania reszt w standardowym modelu regresji. W ramach standardowej wielokrotnej regresji liniowej z niezależnymi terminami normalnego błędu homoskedastycznego rozkład wektora resztkowego jest znany, co pozwala przetestować podstawowe założenia dystrybucyjne w modelu regresji. Podstawową ideą jest ustalenie rozkładu wektora resztkowego przy założeniach regresji, a następnie sprawdzenie, czy wartości resztkowe prawdopodobnie odpowiadają temu rozkładowi teoretycznemu. Odchylenia od teoretycznego rozkładu resztkowego pokazują, że założony rozkład warunków błędu jest pod pewnymi względami błędny.

Jeśli użyjesz podstawowego rozkładu błędów dla standardowego modelu regresji i użyjesz estymacji OLS dla współczynników, wówczas można pokazać rozkład reszt wielowymiarowy rozkład normalny: $\epsilon_i \sim \text{IID N}(0, \sigma^2)$

r = (I - h) ϵ \sim N (0, σ^{2} (I - h)),

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})),$

gdzie jest macierzą kapelusza dla regresji. Wektor resztkowy naśladuje wektor błędu, ale macierz wariancji ma dodatkowy termin multiplikatywny . Aby przetestować założenia regresji, korzystamy ze studentizowanych reszt, które mają marginalny rozkład T: $\boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}}$ $\boldsymbol{I} - \boldsymbol{h}$

s_{i} \equiv \frac{r_{i}}{{\hat{σ}}_{Ext} \cdot (1 - l_{i})} \sim T ({df}_{Res} - 1) .

$s_i \equiv \frac{r_i}{\hat{\sigma}_{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}_{\text{Res}}-1).$

(Ta formuła dotyczy reszt studentizowanych zewnętrznie, gdzie estymator wariancji wyklucza rozważaną zmienną. Wartości są wartościami dźwigni, które są wartościami diagonalnymi w macierzy kapelusza . Uczniowie reszt nie są niezależne, ale jeśli jest duże, są one zbliżone do niezależnych. Oznacza to, że rozkład krańcowy jest prostym znanym rozkładem, ale rozkład połączeń jest skomplikowany.) Teraz, jeśli limit istnieje, to można wykazać, że estymatory współczynników są spójnymi estymatorami prawdziwych współczynników regresji, a reszty są spójnymi estymatorami warunki prawdziwego błędu. $l_i = h_{i,i}$ $n$ $\lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta$

Zasadniczo oznacza to, że testujesz podstawowe założenia dystrybucyjne pod kątem błędów, porównując badane reszty z rozkładem T. Każda z podstawowych właściwości rozkładu błędów (liniowość, homoskedastyczność, błędy nieskorelowane, normalność) może być testowana przy użyciu analogicznych właściwości rozkładu badanych reszt. Jeśli model jest poprawnie określony, to dla dużych reszty powinny być zbliżone do warunków prawdziwego błędu i mieć podobną postać dystrybucyjną. $n$

Pominięcie zmiennej objaśniającej w modelu regresji prowadzi do pominięcia zmienności odchylenia w estymatorach współczynników, co wpływa na rozkład resztkowy. Pominięta zmienna wpływa zarówno na średnią, jak i wariancję wektora resztkowego. Jeśli pominięte terminy w regresji to wówczas pozostały wektor staje się . Jeśli wektory danych w pominiętej macierzy są wektorami normalnymi IID i niezależnymi od warunków błędu, wówczas $\boldsymbol{Z} \boldsymbol{\delta}$ $\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon})$ $\boldsymbol{Z}$ $\boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma_*^2 \boldsymbol{I})$ tak że rozkład resztkowy staje się:

r = (I - h) (Z δ + ϵ) \sim N (μ (I - h) 1, σ_{*}^{2} (I - h)) .

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma_*^2 (\boldsymbol{I} - \boldsymbol{h}) \Big).$

Jeśli w modelu znajduje się już termin przechwytujący (tj. Jeśli wektor jednostkowy znajduje się w macierzy projektu), to $\boldsymbol{1}$ $(\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0}$ , co oznacza, że zachowana jest standardowa forma dystrybucji reszt. Jeśli w modelu nie ma wyrażenia przechwytującego, wówczas pominięta zmienna może dawać niezerową średnią dla reszt. Alternatywnie, jeśli pominięta zmienna nie jest normalna IID, może to prowadzić do innych odchyleń od standardowego rozkładu resztkowego. W tym ostatnim przypadku jest mało prawdopodobne, aby testy rezydualne wykryły cokolwiek wynikającego z obecności pominiętej zmiennej; zwykle nie jest możliwe ustalenie, czy odchylenia od teoretycznego rozkładu resztkowego występują w wyniku pominiętej zmiennej, czy tylko z powodu złej relacji z włączonymi zmiennymi (i prawdopodobnie są to w każdym przypadku to samo).

— Ben - Przywróć Monikę
źródło

1

Dziękujemy za kompleksową odpowiedź. Czy mogę zapytać, skąd masz ? Wydaje mi się, że

r = (I - h) ϵ

$r=(I−h)ϵ$

r = Y - \hat{Y} = (I - h) Y

$r=Y-\hat{Y}=(I-h)Y$

— mai

1

Ponieważ masz więc .

h x = x

$\boldsymbol{h} \boldsymbol {x} = \boldsymbol {x}$

(I - h) x = 0

$(\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {x} = \boldsymbol {0}$

r = (I - h) Y = (I - h) (x β + ϵ) = (I - h) ϵ

$\boldsymbol {r} = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {Y} = (\boldsymbol {I} - \boldsymbol {h}) (\boldsymbol {x} \boldsymbol {\beta} + \boldsymbol {\epsilon} ) = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {\epsilon}$

— Ben - Przywróć Monikę

-4

Zwykle terminy reszty i błędy oznaczają to samo. Jeśli twój model nie ma predyktorów, E (Y) jest rzeczywiście średnią Y. W predyktorach (jak w twoim modelu), E (Y) jest wartością Y przewidywaną z każdego X. Tak więc reszty są różnicą między każdym zaobserwowanym i przewidywał Y.

— Tim Bednall
źródło

3

„Zwykle terminy resztki i błędy oznaczają to samo”. Nie sądzę, że to prawda - o ile rozumiem, reszty mierzą różnicę między wartością obserwowaną a wartością przewidywaną, podczas gdy błędy mierzą różnicę między wartością obserwowaną a prawdziwą wartością średnią.

— mai

1

Ściśle mówiąc błędy i reszty nie są synonimami. Pierwsze to zmienne losowe, drugie to realizacje.

— Richard Hardy,

Dlaczego używamy reszt do testowania założeń dotyczących błędów regresji?

Resztki są naszymi szacunkami warunków błędu