Artykuł Pearson z 1900 r. Nie jest objęty prawem autorskim, więc możemy go przeczytać online .
Powinieneś zacząć od zauważenia, że ten artykuł dotyczy testu dobroci dopasowania, a nie testu niezależności lub jednorodności.
Kontynuuje pracę z wielowymiarową normalną, a chi-kwadrat powstaje jako suma kwadratowych standardowych znormalizowanych zmiennych.
Z dyskusji na s. 160-161 wyraźnie widać, że wyraźnie dyskutuje o zastosowaniu testu do wielomianowych danych rozproszonych (nie sądzę, by używał tego terminu nigdzie). Najwyraźniej rozumie przybliżoną normalność wielowymiarową wielomianu (z pewnością wie, że marginesy są w przybliżeniu normalne - to bardzo stary wynik - i zna środki, wariancje i kowariancje, ponieważ są one podane w artykule); Domyślam się, że większość z tych rzeczy jest już starym kapeluszem do 1900 roku. (Zauważ, że sama dystrybucja chi-kwadrat pochodzi z czasów Helmerta w połowie lat 70. XIX wieku).
Następnie na dole p163 wyprowadza statystykę chi-kwadrat jako „miarę dobroci dopasowania” (sama statystyka pojawia się w wykładniku wielowymiarowego przybliżenia normalnego).
Następnie dyskutuje, jak ocenić wartość p *, a następnie poprawnie podaje górny obszar ogona powyżej 43,87 jako 0,000016. [Należy jednak pamiętać, że nie zrozumiał poprawnie, jak dostosować stopnie swobody w celu oszacowania parametrów na tym etapie, więc niektóre przykłady w jego artykułach używają zbyt dużej wartości df]χ212
* (zauważ, że nie istnieją ani paradygmaty testowe Fisheriana, ani Neymana-Pearsona, jednak wyraźnie widzimy, że już stosuje koncepcję wartości p).
Zauważysz, że nie pisze wprost takich terminów jak . Zamiast tego zapisuje m 1 , m 2 itd. Dla oczekiwanych zliczeń, a dla obserwowanych wielkości stosuje m ′ 1 i tak dalej. Następnie definiuje e = m - m ' (dolna połowa p160) i oblicza e 2 / m dla każdej komórki (patrz równanie (xv) p163 i ostatnia kolumna tabeli na dole p167) ... równoważne wielkości, ale w innej notacji.(Oi−Ei)2/Eim1m2m′1e=m−m′e2/m
Znaczna część obecnego sposobu rozumienia testu chi-kwadrat nie jest jeszcze na miejscu, ale z drugiej strony sporo już tam jest (przynajmniej jeśli wiesz, czego szukać). Wiele się wydarzyło w latach dwudziestych (i później), które zmieniły sposób, w jaki patrzymy na te rzeczy.
Jeśli chodzi o to, dlaczego dzielimy przez w przypadku wielomianu, zdarza się, że chociaż wariancja poszczególnych składników w wielomianu jest mniejsza niż E i , gdy uwzględniamy kowariancje, jest to równoważne po prostu podzieleniu przez E i , dzięki czemu dla miłego uproszczenia.EiEiEi
Dodano w edycji:
Artykuł Placketta z 1983 r. Zawiera sporo kontekstu historycznego i jest swego rodzaju przewodnikiem po nim. Polecam rzucić okiem na to. Wygląda na to, że jest darmowy online przez JStor (jeśli się zalogujesz), więc nie powinieneś nawet potrzebować dostępu za pośrednictwem instytucji, aby go przeczytać.
Plackett, RL (1983),
„Karl Pearson and the Chi-Squared Test”,
International Statistics Review ,
tom. 51, nr 1 (kwiecień), s. 59–72