Dlaczego nachylenie zawsze wynosi dokładnie 1 podczas regresji błędów reszt za pomocą OLS?

10

Eksperymentowałem z zależnością między błędami a resztkami, używając kilku prostych symulacji w R. Jedną z rzeczy, które znalazłem, jest to, że niezależnie od wielkości próbki lub wariancji błędu zawsze otrzymuję dokładnie dla nachylenia, gdy dopasujesz model $1$

e r r o r s \sim β_{0} + β_{1} \times r e s i d u a l s

${\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals}$

Oto przeprowadzona przeze mnie symulacja:

n <- 10 
s <- 2.7 

x <- rnorm(n) 
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e

model <- lm(y ~ x) 
r <- model$res 

summary( lm(e ~ r) )

ei rsą wysoce (ale nie idealnie) skorelowane, nawet w przypadku małych próbek, ale nie mogę zrozumieć, dlaczego tak się dzieje automatycznie. Docenione byłoby matematyczne lub geometryczne wyjaśnienie.

regression least-squares residuals

— GoF_Logistic
źródło

5

W trójkącie płaskim OXY, z podstawą OX, wysokości boków YO i XY są wysokościami samego trójkąta. Aby te wysokości, są podane przez współczynniki lm(y~r), lm(e~r)i lm(r~r), które w związku z tym muszą być wszystkie takie same. Ten ostatni to oczywiście

. Wypróbuj wszystkie trzy z tych poleceń, aby zobaczyć. Aby ostatni działał , musisz utworzyć kopię , na przykład . Aby uzyskać więcej informacji na temat geometrycznych diagramów regresji, zobacz stats.stackexchange.com/a/113207 .

1

$1$ Rrs<-r;lm(r~s)

— whuber

1

Dzięki @whuber. Czy chcesz udzielić odpowiedzi niż odpowiedzi, aby ją zaakceptować, a może oznaczyć jako duplikat?

— GoF_Logistic

1

Nie sądzę, żeby to był duplikat, więc rozszerzyłem komentarz na odpowiedź.

— whuber

11

odpowiedź Whubera jest świetna! (+1) Rozwiązałem problem przy użyciu najbardziej znanej mi notacji i doszedłem do wniosku, że (mniej interesujące, bardziej rutynowe) wyprowadzenie może być warte włączenia tutaj

Niech być modelu regresji dla i hałasu. Następnie regresji z kolumny ma normalne równania w wyniku czego otrzymano oszacowania $y = X \beta^* + \epsilon$ $X \in \mathbb{R}^{n \times p}$ $\epsilon$ $y$ $X$ $X^T\left(y - X \hat\beta\right) = 0,$

\hat{β} = {(X^{T} X)}^{- 1} X^{T} y .

$\hat\beta = \left(X^T X \right)^{-1} X^T y.$ Dlatego regresji ma pozostałości

dla

.

r = y - X \hat{β} = (I - H) y = (I - H) ϵ,

$r = y - X \hat\beta = \left( I - H \right) y = \left( I - H \right) \epsilon,$

H = X (X^{T} X)^{- 1} X^{T}

$H = X (X^T X)^{-1} X^T$

Cofnięcie na daje oszacowane nachylenie podane przez $\epsilon$ $r$ ponieważjest symetryczny i idempotentny, aprawie na pewno.

\begin{aligned} (r^{T} r)^{- 1} r^{T} ϵ & = {({[(I - H) ϵ]}^{T} [(I - H) ϵ])}^{- 1} {[(I - H) ϵ]}^{T} ϵ \\ = \frac{ϵ^{T} {(I - H)}^{T} ϵ}{ϵ^{T} {(I - H)}^{T} (I - H) ϵ} \\ = \frac{ϵ^{T} (I - H) ϵ}{ϵ^{T} (I - H) ϵ} \\ = 1, \end{aligned}

$\begin{align*} (r^T r)^{-1} r^T \epsilon & = \left( \left[ \left(I - H\right) \epsilon \right]^T \left[ \left(I - H\right) \epsilon \right] \right)^{-1} \left[ \left(I - H\right) \epsilon \right]^T \epsilon \\ & = \frac{\epsilon^T \left( I - H \right)^T \epsilon}{\epsilon^T \left( I - H \right)^T \left( I - H \right) \epsilon} \\ & = \frac{\epsilon^T \left( I - H \right) \epsilon}{\epsilon^T \left( I - H \right) \epsilon} \\ & = 1, \end{align*}$

I - H

$I-H$

ϵ \notin i m (X)

$\epsilon \not\in \mathrm{im}(X)$

Ponadto ten argument obowiązuje również wtedy, gdy uwzględniamy przecięcie, gdy wykonujemy regresję błędów na resztach, jeśli przecięcie było uwzględnione w pierwotnej regresji, ponieważ zmienne towarzyszące są ortogonalne (tj. , z równań normalnych) . $1^T r = 0$

— użytkownik795305
źródło

+1 Zawsze miło jest widzieć rozwiązanie wypracowane ostrożnie i wyraźnie.

— whuber

11

Bez utraty ogólności pojęciowej (lub praktycznej) najpierw usuń stałą ze zmiennych, jak opisano w Jak dokładnie jedna „kontroluje inne zmienne” . Niech będzie regresorem, błąd, odpowiedź, szacunek najmniejszych kwadratów , a reszt. Wszystkie te wektory leżą na tej samej płaszczyźnie, co pozwala nam rysować ich obrazy. Sytuację można przedstawić w następujący sposób, gdzie oznacza pochodzenie: $x$ $e$ $Y=\beta x + e$ $b$ $\beta$ $r = Y - bx$ $O$

$\beta x$ $e$ $Y$ $bx$ $Y-bx$ $r$

$x$ $OY$ $(\beta x)Y$ $r$ $r$ $Y$ $r$ $Y$ $e$ $r$ $e$ $r$ $r$ $r$ $1$

$r$ $e=r+(\beta-b)x$ $Y=e+\beta x = r + (2\beta-b)x$ $x$ $x$ $r$ $r$ $1$ $x$ $r$

— Whuber
źródło