Dowód, że statystyka F jest zgodna z rozkładem F.


20

W świetle tego pytania: Dowód, że współczynniki w modelu OLS są zgodne z rozkładem t z (nk) stopniami swobody

Chciałbym zrozumieć, dlaczego

F=(TSSRSS)/(p1)RSS/(np),

gdzie jest liczbą parametrów modelu, a n liczbą obserwacji, a TSS wariancja całkowita, RSS wariancja resztkowa, jest zgodna z rozkładem F_ {p-1, np} .n T S S R S S F p - 1 , n - ppnTSSRSSFp1,np

Muszę przyznać, że nawet nie próbowałem tego udowodnić, ponieważ nie wiedziałbym od czego zacząć.


Christoph Hanck i Francis już udzielili bardzo dobrej odpowiedzi. Jeśli nadal masz problemy ze zrozumieniem testu f dla regresji liniowej, spróbuj przejść do teamdable.github.io/techblog/… . Napisałem wpis na blogu o dowodzie potwierdzającym, że regresja liniowa jest najlepsza. Jest napisany w języku koreańskim, ale może nie stanowić problemu, ponieważ prawie wszystkie są formułami matematycznymi. Mam nadzieję, że pomogłoby to, gdybyś nadal miał trudności ze zrozumieniem dowodu testu f dla regresji liniowej.
Taeho Oh

Chociaż ten link może odpowiedzieć na pytanie, lepiej jest dołączyć tutaj istotne części odpowiedzi i podać link w celach informacyjnych. Odpowiedzi zawierające tylko łącze mogą stać się nieprawidłowe, jeśli połączona strona ulegnie zmianie. - Z recenzji
mkt - Przywróć Monikę

Odpowiedzi:


19

Pokażmy wynik dla ogólnego przypadku, w którym twoja formuła dla statystyki testowej jest przypadkiem szczególnym. Zasadniczo musimy zweryfikować, czy statystykę można, zgodnie z charakterystyką rozkładuF , zapisać jako stosunek niezależnych rvs podzielonych przez ich stopnie swobody.χ2

Niech ze znanymi i , nielosowymi i ma pełny stopień kolumny . Reprezentuje to ograniczenia liniowe dla (w przeciwieństwie do notacji OP) regresorów, w tym składnik stały. Zatem w przykładzie @ user1627466 odpowiada ograniczeniom ustawiania wszystkich współczynników nachylenia na zero.H0:Rβ=rRrR:k×qqqkp1q=k1

W związku z , mamy , aby (z będący „pierwiastkiem macierzowym” , np. Przez Rozkład Choleskiego) as Var(β^ols)=σ2(XX)1

R(β^olsβ)N(0,σ2R(XX)1R),
B1/2={R(XX)1R}1/2B1={R(XX)1R}1
n:=B1/2σR(β^olsβ)N(0,Iq),
Var(n)=B1/2σRVar(β^ols)RB1/2σ=B1/2σσ2BB1/2σ=I
gdzie druga linia używa wariancji OLSE.

To, jak pokazano w odpowiedzi, do której linkujesz (patrz także tutaj ), jest niezależne od gdzie to zwykle szacunek wariancji błędu bezstronnego, przy jest«resztkowa matryca do przygotowywania»od regresji o .

d:=(nk)σ^2σ2χnk2,
σ 2=Y'KXr/(n-K)KX=I-X(X"X)-1X'Xσ^2=yMXy/(nk)MX=IX(XX)1XX

Tak więc, ponieważ jest formą kwadratową w normalnych, W szczególności, pod , zmniejsza się to do statystyki nn

nnχq2/qd/(nk)=(β^olsβ)R{R(XX)1R}1R(β^olsβ)/qσ^2Fq,nk.
H0:Rβ=r
F=(Rβ^olsr){R(XX)1R}1(Rβ^olsr)/qσ^2Fq,nk.

Na przykład, rozważmy szczególnym przypadku , , , i . Następnie kwadratowy euklidesowy dystans OLS oszacuj na podstawie źródła znormalizowanego przez liczbę elementów - podkreślając, że ponieważ są kwadratowymi standardowymi normami, a zatem , rozkład może być widoczny jako „średni .R=Ir=0q=2σ 2 = 1 X ' X = I F = P ' ols p ols / 2 = p 2 ols , 1 + p 2 oli , 2σ^2=1XX=I

F=β^olsβ^ols/2=β^ols,12+β^ols,222,
P2oli,2χ21M×2β^ols,22χ12Fχ2

W przypadku, gdy wolisz małą symulację (która oczywiście nie jest dowodem!), W której testowane jest zero, że żaden z regresorów znaczenia - co tak naprawdę nie ma, więc symulujemy rozkład zerowy.k

wprowadź opis zdjęcia tutaj

Widzimy bardzo dobrą zgodność między gęstością teoretyczną a histogramem statystyki testu Monte Carlo.

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
  y <- rnorm(n)
  X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
  reg <- lm(y~X)
  Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

Aby zobaczyć, że wersje statystyk testowych w pytanie i odpowiedź są rzeczywiście równoważne pamiętać, że odpowiada null ograniczeń i .R=[0I]r=0

Niech należy podzielić na partycje, według których współczynniki są ograniczone do zera poniżej zera (w twoim przypadku wszystkie oprócz stałej, ale pochodna, którą należy zastosować, jest ogólna). Niech też jest odpowiednio podzielonym oszacowaniem OLS.X=[X1X2]β ole = ( P ' ols , 1 , p ' oli , 2 ) 'β^ols=(β^ols,1,β^ols,2)

Następnie i prawy dolny blok Teraz użyj wyników dla partycjonowanych odwrotności, aby uzyskać gdzie .

Rβ^ols=β^ols,2
R(XX)1RD~,
(XTX)1=(X1X1X1X2X2X1X2X2)1(A~B~C~D~)
˜ D =(X2 X2-X2 X1(X1 X1)-1X1 X2)-1=(X2 M X 1 X2)-1M X 1 =I
D~=(X2X2X2X1(X1X1)1X1X2)1=(X2MX1X2)1
MX1=IX1(X1X1)1X1

Tak więc licznik statystyki staje się (bez dzielenia przez ) Następnie przypomnijmy, że według twierdzenia Frisch-Waugh-Lovell możemy napisać , aby Fq

Fnum=β^ols,2(X2MX1X2)β^ols,2
β^ols,2=(X2MX1X2)1X2MX1y
Fnum=yMX1X2(X2MX1X2)1(X2MX1X2)(X2MX1X2)1X2MX1y=yMX1X2(X2MX1X2)1X2MX1y

Pozostaje pokazać, że ten licznik jest identyczny z , różnicą w nieograniczonej i ograniczonej sumie kwadratów reszt.USSRRSSR

Tutaj jest resztkową sumą kwadratów po regresji na , tj. Z nałożonym . W twoim szczególnym przypadku jest to po prostu , reszty regresji na stałej.

RSSR=yMX1y
yX1H0TSS=i(yiy¯)2

Ponownie używając FWL (który pokazuje również, że reszty z dwóch podejść są identyczne), możemy zapisać (SSR w Twojej notacji) jako SSR regresji USSR

MX1yonMX1X2

To znaczy,

USSR=yMX1MMX1X2MX1y=yMX1(IPMX1X2)MX1y=yMX1yyMX1MX1X2((MX1X2)MX1X2)1(MX1X2)MX1y=yMX1yyMX1X2(X2MX1X2)1X2MX1y

A zatem,

RSSRUSSR=yMX1y(yMX1yyMX1X2(X2MX1X2)1X2MX1y)=yMX1X2(X2MX1X2)1X2MX1y


Dzięki. Nie wiem, czy uważa się to za trzymanie ręki w tym momencie, ale jak przejść od sumy kwadratów bety do wyrażenia zawierającego sumę kwadratów?
user1627466

1
@ user1627466, dodałem pochodną równoważności dwóch formuł.
Christoph Hanck

4

@ChristophHanck udzielił bardzo wyczerpującej odpowiedzi, tutaj dodam szkic dowodu na temat wspomnianego specjalnego przypadku OP. Mamy nadzieję, że dla początkujących jest to łatwiejsze.

Zmienna losowa jeśli gdzie i są niezależne. Zatem, aby pokazać, że statystyka ma rozkład , możemy równie dobrze pokazać, że i dla jakiegoś stałego i że są one niezależne.YFd1,d2

Y=X1/d1X2/d2,
X1χd12X2χd22FFcESSχp12cRSSχnp2c

W modelu OLS piszemy gdzie jest macierzą , a idealnie . Dla wygody wprowadzamy macierz kapelusza (uwaga ), a twórca resztkowy . Ważnymi właściwościami i jest to, że są one zarówno symetryczne, jak i idempotentne. Ponadto mamy oraz , przydadzą się one później.

y=Xβ+ε,
Xn×pεNn(0,σ2I)H=X(XTX)1XTy^=HyM=IHHMtr(H)=pHX=X

Oznaczmy macierz wszystkich jako , sumę kwadratów można następnie wyrazić za pomocą form kwadratowych:Należy zauważyć, że . Można sprawdzić, czy jest idempotentny i nazwa nazwa nazwa . Wynika z tego, że jest również idempotentny, a .J

TSS=yT(I1nJ)y,RSS=yTMy,ESS=yT(H1nJ)y.
M+(HJ/n)+J/n=IJ/nranga(M.)+ranga(H.-jot/n)+ranga(jot/n)=nH.-jot/nM.(H.-jot/n)=0

Możemy teraz zacząć pokazywać, że statystyka ma rozkład (przeszukaj twierdzenie Cochrana więcej). Potrzebujemy dwóch faktów:fafa

  1. Niech . Załóżmy, że jest symetryczny z rangą a jest idempotentny, a następnie , tj. z df i niecentralnością . Jest to szczególny przypadek wyniku Baldessari , dowód można znaleźć również tutaj .xN.n(μ,Σ)ZArZAΣxT.ZAxχr2)(μT.ZAμ/2))χ2)rμT.ZAμ/2)
  2. Niech . Jeśli , to i są niezależne. Jest to znane jako twierdzenie Craiga .xN.n(μ,Σ)ZAΣb=0xT.ZAxxT.bx

Od mamyJednak pod hipotezą zerową , więc naprawdę . Z drugiej strony należy zauważyć, że od . Dlatego . Ponieważ , i są również niezależne. Zaraz potem następujeyN.n(Xβ,σ2)ja)

ESσ2)=(yσ)T.(H.-1njot)yσχp-12)((Xβ)T.(H.-jotn)Xβ).
β=0ES/σ2)χp-12)yT.M.y=εT.M.εH.X=XRSS/σ2)χn-p2)M.(H.-jot/n)=0ES/σ2)RSS/σ2)
fa=(TSS-RSS)/(p-1)RSS/(n-p)=ESσ2)/(p-1)RSSσ2)/(n-p)fap-1,n-p.
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.