Zmotywuję to intuicyjnie i wskażę, jak to się dzieje w specjalnym przypadku dwóch grup, zakładając, że z przyjemnością przyjmiesz normalne przybliżenie do dwumianu.
Mam nadzieję, że to wystarczy, abyś dobrze zorientował się, dlaczego działa tak, jak działa.
Mówisz o teście dobroci dopasowania chi-kwadrat. Powiedzmy, że istnieje grup (masz to jako n , ale jest powód, dla którego wolę nazywać to kknk ).
W modelu są stosowane w tej sytuacji, liczy , i = 1 , 2 , . . . , k są wielomianoweOii=1,2,...,k .
Niech . Liczenia zależą od sumy N (z wyjątkiem niektórych dość rzadkich sytuacji); i dla każdej kategorii istnieje pewien wstępnie określony zestaw prawdopodobieństw, p i , i = 1 , 2 , … , k , które sumują się do 1N=∑ki=1OiNpi,i=1,2,…,k1 .
Podobnie jak w przypadku dwumianu istnieje asymptotyczne przybliżenie normalne dla wielomianów - w rzeczywistości, jeśli weźmie się pod uwagę tylko liczbę w danej komórce („w tej kategorii” lub nie), wówczas byłaby ona dwumianowa. Podobnie jak w przypadku dwumianu, wariancje zliczeń (a także ich kowariancje w wielomianu) są funkcjami i p ; nie oceniasz wariancji osobno.Np
Oznacza to, że jeżeli oczekiwane zliczenia są dostatecznie duże, wektor liczy w przybliżeniu normalnym do średniej . Ponieważ jednak liczby są zależne od N , rozkład jest zdegenerowany (istnieje w hiperpłaszczyźnie o wymiarze k - 1 , ponieważ określenie k - 1 zliczeń naprawia pozostałą). Macierz wariancji-kowariancji ma wpisy ukośne N p i ( 1 - p i ) oraz elementy poziome - N p i p jEi=NpiNk−1k−1Npi(1−pi)−Npipj, i ma rangę powodu degeneracji.k−1
W rezultacie dla pojedynczej komórki , a można napisać z i = O i - E iVar(Oi)=Npi(1−pi) . Jednak warunki są zależne (ujemnie skorelowane), więc jeśli zsumujesz kwadraty tychzi,to nie będzie miałrozkładuχ2k(tak jak gdyby były to niezależne zmienne standaryzowane). Zamiast tego moglibyśmy potencjalnie skonstruować zestawk-1zmiennych niezależnych od pierwotnegok,które są niezależne i nadal w przybliżeniu normalne (asymptotycznie normalne). Jeśli zsumujemyich(znormalizowane) kwadraty, otrzymamyχ2k-1zi=Oi−EiEi(1−pi)√ziχ2kk−1kχ2k−1. Istnieją sposoby skonstruowania takiego zestawu zmiennych sposób jawny, ale na szczęście istnieje bardzo zgrabny skrót, który pozwala uniknąć znacznego wysiłku i daje taki sam wynik (tę samą wartość statystyki), jak gdybyśmy mieli zadał sobie trud.k−1
Rozważ, dla uproszczenia, dobroć dopasowania w dwóch kategoriach (która jest teraz dwumianowa). Prawdopodobieństwo przebywania w pierwszej komórce wynosi , aw drugiej komórce jest p 2 = 1 - p . Istnieje X = O 1 obserwacji w pierwszej komórki, a N - X = O 2 w drugiej komórce.p1=pp2=1−pX=O1N−X=O2
XN(Np,Np(1−p))z=X−NpNp(1−p)√z2=(X−Np)2Np(1−p)∼χ21 (asymptotically ∼χ21).
Notice that
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)].
But
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p).
So ∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p) which is the z2 we started with - which asymptotically will be a χ21 random variable. The dependence between the two cells is such that by diving by Ei instead of Ei(1−pi) we exactly compensate for the dependence between the two, and get the original square-of-an-approximately-normal random variable.
The same kind of sum-dependence is taken care of by the same approach when there are more than two categories -- by summing the (Oi−Ei)2Ei instead of (Oi−Ei)2Ei(1−pi) over all k terms, you exactly compensate for the effect of the dependence, and obtain a sum equivalent to a sum of k−1 independent normals.
There are a variety of ways to show the statistic has a distribution that asymptotically χ2k−1 for larger k (it's covered in some undergraduate statistics courses, and can be found in a number of undergraduate-level texts), but I don't want to lead you too far beyond the level your question suggests. Indeed derivations are easy to find in notes on the internet, for example there are two different derivations in the space of about two pages here