Po ostatnim głosowaniu w dół próbowałem sprawdzić swoje zrozumienie testu Pearson Chi Squared. Zwykle używam statystyki chi kwadrat (lub zredukowanej statystyki chi kwadrat) do dopasowania lub sprawdzenia wynikowego dopasowania. W tym przypadku wariancja nie jest zwykle oczekiwaną liczbą zliczeń w tabeli lub histogramie, ale pewną wariancją określoną eksperymentalnie. Tak czy inaczej, zawsze miałem wrażenie, że test nadal wykorzystuje asymptotyczną normalność wielomianowego pliku PDF (tj. Moja statystyka testu to
i jest asymptotycznie wielomianowy, gdzie oznacza macierz kowariancji). Dlatego ma rozkład chi-kwadrat o dużej więc użycie oczekiwanej liczby zliczeń, ponieważ mianownik w statystyce staje się ważny dla dużej . Możliwe, że dotyczy to tylko histogramów, od lat nie analizowałem małej tabeli danych.
Czy brakuje mi bardziej subtelnego argumentu, którego mi brakuje? Byłbym zainteresowany referencją, a jeszcze lepiej krótkim wyjaśnieniem. (Chociaż jest to możliwe, właśnie głosowałem za pominięciem słowa asymptotycznego, co, jak przyznam, jest raczej ważne).