Jakie są alternatywy dla testu chi-kwadrat dla zmiennych kategorialnych z tabelami większymi niż 2 x 2 i komórkami o liczbie mniejszej niż 5, jeśli nie chcę scalać klas?
Jakie są alternatywy dla testu chi-kwadrat dla zmiennych kategorialnych z tabelami większymi niż 2 x 2 i komórkami o liczbie mniejszej niż 5, jeśli nie chcę scalać klas?
Odpowiedzi:
Istnieją tutaj pewne powszechne nieporozumienia. Test chi-kwadrat doskonale nadaje się do stosowania z tabelami większymi niż . Aby rzeczywisty rozkład statystyki testu chi-kwadrat był zbliżony do rozkładu chi-kwadrat, tradycyjnym zaleceniem jest, aby wszystkie komórki miały oczekiwane wartości . Należy zwrócić uwagę na dwie rzeczy:
Nie ma znaczenia, jakie są obserwowane liczby komórek - mogą być bez problemu - liczą się tylko oczekiwane liczby .
Ta tradycyjna zasada jest obecnie zbyt konserwatywna. Może być dobrze mieć komórek z oczekiwaną liczbą o ile żadna spodziewana liczba nie jest . Widzieć:
Jeśli oczekiwane liczby nie spełniają tego dokładniejszego kryterium, dostępne są alternatywne opcje:
Najlepszym rozwiązaniem jest prawdopodobnie symulacja rozkładu próbkowania statystyki testowej lub użycie testu permutacji. Na przykład w R można po prostu ustawić chisq.test(..., simulate.p.value=TRUE)
. Inne oprogramowanie również powinno to umożliwić.
Możesz użyć alternatywnego testu, takiego jak dokładny test Fishera. Chociaż dokładny test Fishera jest często zalecany w tej sytuacji, warto zauważyć, że przyjmuje on różne założenia i może nie być odpowiedni. Mianowicie, dokładny test Fishera zakłada, że liczby wierszy i kolumn zostały ustalone z góry i tylko układ kombinacji rzędów x kolumn może się różnić (patrz: Biorąc pod uwagę moc komputerów w dzisiejszych czasach, czy kiedykolwiek istnieje powód, aby wykonać test chi-kwadrat zamiast dokładnego testu Fishera? ). Jeśli nie masz pewności co do tego założenia, lepszym rozwiązaniem będzie symulowanie chi-kwadrat.