Zasady stosowania symulacji Monte Carlo wartości p dla testu chi-kwadrat

Chciałbym zrozumieć zastosowanie symulacji Monte Carlo w chisq.test()funkcji w R.

Mam zmienną jakościową, która ma 128 poziomów / klas. Moja próbka to 26 (nie mogłem próbkować więcej „osób”). Więc oczywiście będę mieć kilka poziomów z 0 „osobami”. Ale faktem jest, że mam bardzo małą liczbę klas reprezentowanych z 127 możliwych. Ponieważ słyszałem, że aby zastosować test chi-kwadrat, powinniśmy mieć co najmniej 5 osobników na każdym poziomie (nie do końca rozumiem powód tego), pomyślałem, że musiałem skorzystać z simulate.p.valueopcji użycia symulacji Monte Carlo, aby oszacować rozkład i obliczyć wartość p. Bez symulacji Monte Carlo R daje mi wartość p < 1e-16. Dzięki symulacji Monte Carlo daje mi wartość p przy 4e-5.

Próbowałem obliczyć wartość p za pomocą wektora 26 zer i 101 zer, a przy symulacji Monte-Carlo otrzymuję wartość p przy 1.

Czy można stwierdzić, że nawet jeśli moja próbka jest niewielka w porównaniu z liczbą możliwych klas, zaobserwowany rozkład jest taki, że jest bardzo mało prawdopodobne, aby wszystkie możliwe klasy istniały z takim samym prawdopodobieństwem (1/127) w rzeczywistej populacji ?

r chi-squared monte-carlo

— jtextori
źródło

Jeśli twoje dane naprawdę są takie, że zaobserwowałeś 26 różnych klas z próby 26, to zasadniczo nie masz dowodów przeciwko hipotezie, że wszystkie 127 klas mają jednakowe prawdopodobieństwo. Można to ocenić za pomocą obliczenia rozkładu wielomianowego.

— whuber

„ Jak słyszałem, aby zastosować test chi-kwadrat, powinniśmy mieć co najmniej 5 osobników na każdym poziomie (nie do końca rozumiem powód tego) ” - niezupełnie. Oryginalna rada była taka, że oczekiwana liczba, a nie rzeczywista liczba, powinna wynosić co najmniej 5. Celem tej (już dawno przestarzałej) zasady było sprawdzenie, czy rozkład chi-kwadrat jest rozsądnym przybliżeniem do rozkładu dyskretnego Statystyka testowa. W ciągu ostatnich 4 dziesięcioleci rada wśród wielu dokumentów brzmi: „ta zasada jest nieco zbyt surowa”.

— Glen_b

Poszukując, wydaje się, że celem symulacji Monte-Carlo jest wytworzenie rozkładu odniesienia, opartego na losowo generowanych próbkach, które będą miały taki sam rozmiar jak badana próbka, w celu obliczenia wartości p, gdy warunki testowe nie są spełnione.

Wyjaśnia to Nadzieja A. J Royal Stat Society Series B (1968), którą można znaleźć na JSTOR .

Oto odpowiedni cytat z dokumentu Hope:

Procedury testu istotności Monte-Carlo polegają na porównaniu zaobserwowanych danych z losowymi próbkami wygenerowanymi zgodnie z testowaną hipotezą. ... Lepiej jest zastosować znany test dobrej wydajności zamiast procedury testowej Monte-Carlo, zakładając, że alternatywna hipoteza statystyczna może być całkowicie określona. Jednak nie zawsze jest możliwe zastosowanie takiego testu, ponieważ warunki konieczne do zastosowania testu mogą nie być spełnione lub rozkład podstawowy może być nieznany lub może być trudny wybór odpowiedniego kryterium testu.

— jtextori
źródło