Test chi-kwadrat dla równości rozkładów: ile zer toleruje?

Porównuję dwie grupy mutantów, z których każda może mieć tylko jeden z 21 różnych fenotypów. Chciałbym zobaczyć, czy rozkład tych wyników jest podobny między dwiema grupami. Znalazłem test online, który oblicza „test chi-kwadrat dla równości rozkładów” i daje pewne wiarygodne wyniki. Mam jednak kilka zer w tej tabeli, więc czy w ogóle mogę w tym przypadku użyć chi-kwadrat?

Oto tabela z dwiema grupami i liczbą poszczególnych fenotypów:

distributions chi-squared contingency-tables

— Membran
źródło

Stół nie wyszedł dobrze. Każda liczba nieparzysta jest liczbą z grupy 1, a każda liczba parzysta jest odpowiednią liczbą z grupy 2

— Membran

Przeformatowałem twoje pytanie. Czy tabela jest teraz poprawna?

— csgillespie

Odpowiedzi:

W dzisiejszych czasach doskonale możliwe jest wykonanie „dokładnego” testu Fishera na takim stole. Właśnie otrzymałem p = 0,087 przy użyciu Staty ( tabi 2 1 \ 2 3 \ .... , exact. Wykonanie zajęło 0,19 sekundy).

EDYCJA po komentarzu chl poniżej (próbowałem dodać jako komentarz, ale nie można sformatować):

Działa dla mnie w wersji 2.12.0, chociaż musiałem zwiększyć opcję „obszaru roboczego” ponad jej domyślną wartość 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(Czas wykonania jest nieco szybszy niż w Stacie, ale ma to wątpliwe znaczenie, biorąc pod uwagę czas poświęcony na zrozumienie komunikatu o błędzie, który używa „obszaru roboczego” w znaczeniu innego niż zwykłe znaczenie R, pomimo faktu, że fisher.test jest częścią podstawowego pakietu „statystyk” R.)

— jeden przystanek
źródło

Co ciekawe, test Fishera rozbił się na R.

— chl.

Niestety, nie mogę głosować więcej. Wygląda na to, że nie zwiększyłem wystarczająco wksp :)

— chl

Czyż nie jest tak, że „dokładny” test Fishera faktycznie odpowiada na nieco inne pytanie: „... służy do zbadania znaczenia powiązania (przygodności) między dwoma rodzajami klasyfikacji” (strona wiki). W moim przypadku starałem się potwierdzić (lub obalić) hipotezę, że rozkłady fenotypów między 2 grupami są podobne (równe). Kiedy znalazłem ten test online (patrz pierwszy post) o nazwie „Test chi-kwadrat dla równości rozkładów”, pomyślałem, że to właśnie z moim problemem ...

— Membran

Ponadto, jeśli uważasz, że wspomniana wersja testu Fishera jest odpowiednia do porównania dwóch rozkładów, czy można jej również użyć do sprawdzenia jednorodności rozkładu (tzn. Powiedzieć, że fenotypy w obrębie jednej grupy były rozmieszczone nierównomiernie między skończoną liczbą możliwych fenotypów) ? Można to zrobić nawet w programie Excel za pomocą funkcji CHITEST, ale co, jeśli mam rozkład podobny do powyższego, z dużą ilością fenotypów zaobserwowanych mniej niż 5 razy?

— Membran

@Membran # 1: Jest to nieco inne pytanie, ponieważ dokładne warunki testu Fishera dla obu zestawów wartości krańcowych. Wydaje mi się to jednak akademicką subtelnością statystyczną, a ja jestem statystyką akademicką. (BTW, czy możesz wyjaśnić, do której wiki się odwołujesz?) @Membran # 2: Nie nazwałbym warunkowego testu dokładnego „dokładnym testem Fishera” w przypadku tabeli jednokierunkowej, ale taki test powinien być możliwy. I ja pomyślałbym bardziej jednoznacznie w przypadku tabel jednokierunkowych, ale obecnie nie mogę znaleźć oprogramowania do pomocy i nie mam czasu, aby wykonać obliczenia bez.

— onestop

Zazwyczaj wytyczne przewidują, że oczekiwane liczby powinny być większe niż 5, ale można je nieco rozluźnić, jak omówiono w następującym artykule:

Testy Campbella, I, Chi-kwadrat i Fishera – Irwina dla tabel dwa na dwa z zaleceniami dla małych próbek , Statistics in Medicine (2007) 26 (19): 3661–3675.

Zobacz także stronę domową Iana Campbella .

$p$ chisq.test(..., sim=TRUE)

W twoim przypadku wydaje się, że około 80% oczekiwanych liczb jest poniżej 5, a 40% poniżej 1. Czy sensowne byłoby agregowanie niektórych zaobserwowanych fenotypów?

— chl
źródło

Dziękuję za sugestie. Logicznie rzecz biorąc, nie jest całkiem możliwe połączenie fenotypów, ponieważ każdy z nich jest unikalną kombinacją trzech zarejestrowanych parametrów. Ponieważ każdy z tych parametrów może przejść „w górę”, „w dół” lub pozostać „niezmieniony” w wyniku mutacji, więc może istnieć 3 ^ 3 = 27 różnych fenotypów. W powyższym przykładzie usunąłem fenotypy, dla których obie grupy uzyskały „0”, więc było ich tylko 21. Widzę występowanie niektórych fenotypów, ale chciałbym mieć jakiś statystyczny dowód, że rozmieszczenie takich fenotypów w różnych grupach mutantów jest podobne (lub nie). Dziękuję Ci!

— Membran

@Membran Aggregation nie musi mieć znaczenia: możesz łączyć pojemniki w dowolny sposób. Subtelny problem polega jednak na tym, że agregacja post facto poddaje w wątpliwość wartości p; agregacja powinna być niezależna od danych.

— whuber