Zajmijmy się najprostszym przypadkiem, aby zapewnić jak najwięcej intuicji. Niech będzie próbką iid z rozkładu dyskretnego z k wyników. Niech π 1 , … , π k będą prawdopodobieństwami każdego konkretnego wyniku. Interesuje nas (asymptotyczny) rozkład statystyki chi-kwadrat
X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xnkπ1,…,πk
Tutaj n π i jest oczekiwaną liczbą zliczeń i- tego wyniku.
X2=∑i=1k(Si−nπi)2nπi.
nπii
Sugestywna heurystyka
Zdefiniuj , tak żeX2=∑iU 2 i =‖U‖ 2 2 gdzieU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
Ponieważ jest B i n ( n , π i ) , to według Twierdzenia Granicy Centralnej ,
T i = U iSiBin(n,πi)
Stąd też ma to, U i d → N ( 0 , 1 - π I ) .
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
Teraz, jeśli były (asymptotycznie) niezależne (które nie są), to możemy twierdzić, że
Σ i T 2 i było asymptotycznie χ 2 k dystrybuowane. Należy jednak zauważyć, że T k jest funkcją deterministyczną ( T 1 , … , T k - 1 ), a zatem zmienne T i nie mogą być niezależne.Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti
Dlatego musimy w jakiś sposób uwzględnić kowariancję między nimi. Okazuje się, że „poprawny” sposób to zrobić jest użycie zamiast i kowariancja pomiędzy składnikami U zmienia się także rozkład asymptotycznej od tego, co możemy mieć myśl była χ 2 k , co jest w rzeczywistości, a χ 2 k - 1 .UiUχ2kχ2k−1
Kilka szczegółów na ten temat.
Bardziej rygorystyczne traktowanie
Nie jest trudno sprawdzić, czy w rzeczywistości
dlai≠j.Cov(Ui,Uj)=−πiπj−−−−√i≠j
Zatem kowariancja wynosi
A = I - √U
gdzie √
A=I−π−−√π−−√T,
. Zauważ, że
jest symetryczna i idempotent, czyli
=2=T. Zatem w szczególności, jeśli
Z=(Z1,…,Zk)ma standardowe standardowe składowe, wówczas
AZ∼N(0,A). (
Uwaga:Rozkład normalny wielowymiarowy w tym przypadku jest
zdegenerowany).
π−−√=(π1−−√,…,πk−−√)AA=A2=ATZ=(Z1,…,Zk)AZ∼N(0,A)
Teraz, przez wielowymiarowe Centralnego twierdzenia granicznego , wektor posiada asymptotycznej wielowymiarowy rozkład normalny ze średnią 0 i kowariancji A .U0A
Tak więc, ma taki sam rozkład asymptotycznej jako A Z , a więc takiego samego rozkładu asymptotyczna z
X 2 = U t U jest taki sam jak rozkład Z T A T A Z = Z T A Z przez ciągłe twierdzenia odwzorowania .UAZX2=UTUZTATAZ=ZTAZ
Ale jest symetryczny i idempotentny, więc ( a ) ma ortogonalne wektory własne, ( b ) wszystkie jego wartości własne wynoszą 0 lub 1, oraz ( c ) krotność wartości własnej 1 wynosi r a n k ( A ) . Oznacza to, że można rozłożyć jak A = Q R Q , T , gdzie Q jest ortogonalny, a D jest macierzą diagonalną o r a n K ( ) te na przekątnej, a pozostałe pozycje ukośne zerowej.Arank(A)AA=QDQTQDrank(A)
ZTAZχ2k−1Ak−1
Inne połączenia
Statystyka chi-kwadrat jest również ściśle powiązana ze statystykami współczynnika wiarygodności. Rzeczywiście, jest to statystyka wyniku Rao i może być postrzegana jako przybliżenie szeregu Taylora statystyki wskaźnika prawdopodobieństwa.
Bibliografia
To mój własny rozwój oparty na doświadczeniu, ale oczywiście pod wpływem klasycznych tekstów. Są dobre miejsca, w których można dowiedzieć się więcej
- GAF Seber i AJ Lee (2003), Linear Regression Analysis , wyd. 2, Wiley.
- E. Lehmann i J. Romano (2005), Testing Statistics Hypotheses , 3. wyd., Springer. W szczególności sekcja 14.3 .
- DR Cox i DV Hinkley (1979), Theoretical Statistics , Chapman and Hall.