Test dobroci dopasowania wykorzystuje następującą statystykę : W teście warunki są spełnione, Można użyć - rozkład obliczyć p-wartość, biorąc pod uwagę prawda można by zaobserwować w takiej wartości reprezentatywnej próbki o tej samej wielkości.χ 2 0 = n ∑ i = 1 ( O i - E i ) 2 χ2H0
Jednak aby statystyki podążały za (z stopniami swobody), musi być prawdą, że: dla niezależnego, standardowego, normalnego ( Wikipedia ). Warunki testu są następujące (ponownie z Wikipedii ): χ 2 n - 1 n ∑ i = 1 ( O i - E i ) 2 Zi
- Próbka reprezentatywna dla populacji
- Duży rozmiar próbki
- Oczekiwana liczba komórek jest wystarczająco duża
- Niezależność między każdą kategorią
Z warunków (1,2) jasno wynika, że spełniamy warunki wnioskowania z próby na populację. (3) wydaje się być wymaganym założeniem, ponieważ dyskretna liczba , która jest w mianowniku, nie powoduje prawie ciągłego rozkładu dla każdego a jeśli nie jest wystarczająco duża, występuje błąd, który można poprawić za pomocą Yatesa korekta - wydaje się, że wynika to z faktu, że rozkład dyskretny jest zasadniczo „ciągłym” rozkładem ciągłym, więc przesunięcie o dla każdego koryguje to.Z I 1 / 2
Konieczność (4) wydaje się przydatna później, ale nie widzę, jak to zrobić.
Na początku myślałem, że jest konieczne, aby statystyki pasowały do rozkładu. Doprowadziło mnie to do wątpliwego założenia, że , co rzeczywiście było błędne. W rzeczywistości ze zmniejszenia wymiaru dwóch stron równości od do jasno wynika, że nie może tak być. Oi-Ei∼N(0,√nn-1
Dzięki wyjaśnieniom stało się jasne, że nie musi być równe każdemu ponieważ (zwróć uwagę na zmniejszenie liczby zmiennych sumowanych) dla standardowych normalnych zmiennych losowych które są funkcjonalnie niezależne.O i - E i χ20=∑n-1i=1Z2iZi
Moje pytanie brzmi zatem, w jaki sposób podążać za ? Jakie kombinacje każdego z dają kwadratowe standardowe normalne ? To najwyraźniej wymaga użycia CLT (i to ma sens), ale jak? Innymi słowy , co każde równe (lub w przybliżeniu równe)? χ 2 ( O i - E i ) 2