Intuicja na temat znaków „plus” związanych z wariancją (z faktu, że nawet gdy obliczamy wariancję różnicy niezależnych zmiennych losowych, dodajemy ich wariancje) jest poprawna, ale śmiertelnie niekompletna: jeśli zaangażowane zmienne losowe nie są niezależne , zaangażowane są również kowariancje - i kowariancje mogą być ujemne. Istnieje wyrażenie, które jest prawie podobne do wyrażenia w pytaniu, które uważano, że „powinno” być przez OP (i mnie), i jest to wariant błędu prognozowania , oznacz to , gdzie :r 0 = β 0 + β 1 x 0 + U 0e0=y0−y^0y0=β0+β1x0+u0
Var(e0)=σ2⋅(1+1n+(x0−x¯)2Sxx)
Krytyczna różnica między wariancją błędu prognozowania a wariancją błędu oszacowania (tj. Resztkowego) polega na tym, że wartość błędu przewidywanej obserwacji nie jest skorelowana z estymatorem , ponieważ wartość nie została użyta w konstruowanie estymatora i obliczanie szacunków, będących wartością spoza próby.y0
Algebra dla obu przebiega dokładnie w ten sam sposób do pewnego punktu (używając zamiast ), ale potem się rozbiera. Konkretnie:i0i
W prostej regresji liniowej , , wariancja estymatora jest nadal Var ( u i ) = σ 2 β = ( β 0 , p 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)′
Var(β^)=σ2(X′X)−1
Mamy
X′X=[n∑xi∑xi∑x2i]
a więc
(X′X)−1=[∑x2i−∑xi−∑xin]⋅[n∑x2i−(∑xi)2]−1
Mamy
[ n∑x2ja- ( ∑xja)2)] = [ n ∑x2ja-n2)x¯2)]=n[∑x2i−nx¯2]=n∑(x2i-x¯2) ≡ nSx x
Więc
( X′X )- 1= [ ( 1 / n ) ∑ x2)ja- x¯- x¯1] ⋅(1 / Sx x)
co oznacza że
Var ( β^0) = σ2)( 1n∑ x2)ja)⋅ (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)
Var(β^1)=σ2(1/Sxx)
Cov(β^0,β^1)=−σ2(x¯/Sxx)
-tym resztkową określa się jakoi
u^i=yi−y^i=(β0−β^0)+(β1−β^1)xi+ui
Rzeczywiste współczynniki są traktowane jako stałe The REGRESSOR jest przymocowany (lub uzależnione od tego) i ma zerową wartość kowariancji z terminu błędu, ale że estymatory są skorelowane ze składnika błędu, ponieważ estymatory zawierać zmienną zależną, a zmienna zależna zawiera termin błędu. Więc mamy
Var(u^i)=[Var(ui)+Var(β^0)+x2iVar(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
= [ σ2)+ σ2)( 1n+ x¯2)S.x x) + x2)jaσ2)( 1 / Sx x) + 2 Cov ( [ ( β0- β^0) + ( β1- β^1) xja] , uja)
Spakuj to trochę, aby uzyskać
Var ( u^ja) = [ σ2)⋅ ( 1 + 1n+(xi−x¯)2Sxx)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
Termin w dużym nawiasie ma dokładnie taką samą strukturę z wariancją błędu prognozowania, z tą jedyną zmianą, że zamiast będziemy mieć (i wariancja będzie a nie ). Ostatni warunek kowariancji wynosi zero dla błędu prognozowania, ponieważ a zatem nie jest uwzględniony w estymatorach, ale nie zero dla błędu oszacowania, ponieważ a zatem jest częścią próbki, a zatem jest uwzględniony w taksator. Mamyx 0 E 0 U i Y 0 U 0 r I u Ixix0e0u^iy0u0yiui
2Cov([(β0−β^0)+(β1−β^1)xi],ui)=2E([(β0−β^0)+(β1−β^1)xi]ui)
=−2E(β^0ui)−2xiE(β^1ui)=−2E([y¯−β^1x¯]ui)−2xiE(β^1ui)
ostatnie podstawienie z obliczania . Kontynuując,β^0
...=−2E(y¯ui)−2(xi−x¯)E(β^1ui)=−2σ2n−2(xi−x¯)E[∑(xi−x¯)(yi−y¯)Sxxui]
=−2σ2n−2(xi−x¯)Sxx[∑(xi−x¯)E(yiui−y¯ui)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑j≠i(xj−x¯)+(xi−x¯)σ2(1−1n)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑(xi−x¯)+(xi−x¯)σ2]
=−2σ2n−2(xi−x¯)Sxx[0+(xi−x¯)σ2]=−2σ2n−2σ2(xi−x¯)2Sxx
Wstawiamy to do wyrażenia wariancji reszty, otrzymujemy
Var(u^i)=σ2⋅(1−1n−(xi−x¯)2Sxx)
Czapki z głów przed tekstem używanym przez OP.
(Pominąłem pewne manipulacje algebraiczne, nic dziwnego, że algebry OLS uczy się coraz mniej…)
NIEKTÓRE INTUICJE
Wydaje się więc, że to, co działa „przeciwko” nam (większa wariancja) podczas przewidywania, działa „dla nas” (mniejsza wariancja) podczas szacowania. Jest to dobry punkt wyjścia do zastanowienia się, dlaczego doskonałe dopasowanie może być złym znakiem dla zdolności prognozowania modelu (choć może to zabrzmieć intuicyjnie ...).
Fakt, że jest oszacowanie oczekiwaną wartość regressor, zmniejsza się zmienność przez . Dlaczego? ponieważ poprzez oszacowanie „zamykamy oczy” na pewną zmienność błędów występującą w próbie, ponieważ zasadniczo szacujemy wartość oczekiwaną. Ponadto, im większe jest odchylenie obserwacji regresora od średniej próbki regresora,1/nwariancja reszty związana z tą obserwacją będzie ... im bardziej dewiacyjna obserwacja, tym mniej dewiacyjna jej reszta ... To zmienność regresorów, która działa dla nas, poprzez „zajęcie” nieznanego błędu - zmienność.
Ale to dobrze dla oceny . W przypadku przewidywania te same rzeczy zwracają się przeciwko nam: teraz, nie biorąc pod uwagę, jakkolwiek niedoskonale, zmienności (ponieważ chcemy to przewidzieć), nasze niedoskonałe estymatory uzyskane z próby pokazują ich słabości: oszacowaliśmy średnia próbka, nie znamy prawdziwej oczekiwanej wartości - wariancja rośnie. Mamy które jest daleko od średniej próbki obliczonej na podstawie innych obserwacji - źle, nasza wariancja błędu prognozy dostaje kolejne wzmocnienie, ponieważ przewidywany będzie miał tendencję do błądzenia ... więcej język naukowy "optymalne predyktory w sensie zmniejszonej wariancji błędu prognozy, reprezentująy0x0 y^0skurczenie w kierunku średniej przewidywanej zmiennej ". Nie próbujemy powielać zmienności zmiennej zależnej - po prostu staramy się pozostać" blisko średniej ".