Chciałbym zrozumieć zastosowanie symulacji Monte Carlo w chisq.test()
funkcji w R.
Mam zmienną jakościową, która ma 128 poziomów / klas. Moja próbka to 26 (nie mogłem próbkować więcej „osób”). Więc oczywiście będę mieć kilka poziomów z 0 „osobami”. Ale faktem jest, że mam bardzo małą liczbę klas reprezentowanych z 127 możliwych. Ponieważ słyszałem, że aby zastosować test chi-kwadrat, powinniśmy mieć co najmniej 5 osobników na każdym poziomie (nie do końca rozumiem powód tego), pomyślałem, że musiałem skorzystać z simulate.p.value
opcji użycia symulacji Monte Carlo, aby oszacować rozkład i obliczyć wartość p. Bez symulacji Monte Carlo R daje mi wartość p < 1e-16
. Dzięki symulacji Monte Carlo daje mi wartość p przy 4e-5
.
Próbowałem obliczyć wartość p za pomocą wektora 26 zer i 101 zer, a przy symulacji Monte-Carlo otrzymuję wartość p przy 1.
Czy można stwierdzić, że nawet jeśli moja próbka jest niewielka w porównaniu z liczbą możliwych klas, zaobserwowany rozkład jest taki, że jest bardzo mało prawdopodobne, aby wszystkie możliwe klasy istniały z takim samym prawdopodobieństwem (1/127) w rzeczywistej populacji ?