Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”:

> soda_gender

    f m
  n 0 5
  y 5 0

Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. Tutaj po prostu założyłem, że mężczyźni nie piją napojów gazowanych, a kobiety piją napoje gazowane, i chciałem sprawdzić, czy procedury statystyczne dojdą do tego samego wniosku.

Kiedy uruchamiam dokładny test Fishera w R, otrzymuję następujące wyniki:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0

Tutaj, ponieważ wartość p wynosi 0,007937, stwierdzilibyśmy, że płeć i spożycie sody są powiązane.

Wiem, że dokładny test Fishera jest związany z rozmieszczeniem hipergeomterycznym. Więc chciałem uzyskać podobne wyniki przy użyciu tego. Innymi słowy, możesz spojrzeć na ten problem w następujący sposób: jest 10 kulek, z których 5 jest oznaczonych jako „męskie”, a 5 jest oznaczonych jako „żeńskie”, a losujesz 5 piłek losowo bez zamiany, i widzisz 0 męskich kulek . Jaka jest szansa na tę obserwację? Aby odpowiedzieć na to pytanie, użyłem następującego polecenia:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Moje pytania to: 1) Dlaczego dwa wyniki są różne? 2) Czy jest coś niepoprawnego lub rygorystycznego w powyższym rozumowaniu?

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

— Alby
źródło

Dokładny test Fishera polega na uwarunkowaniu marginesów stołu (w tym przypadku 5 mężczyzn i kobiet oraz 5 osób pijących napoje gazowane i osoby nie pijące). Zgodnie z założeniami hipotezy zerowej, prawdopodobieństwa komórkowe do zaobserwowania męskiej osoby pijącej napoje gazowane, męskiej osoby nie pijącej napojów alkoholowych, żeńskiej osoby pijącej napoje gazowane lub żeńskiej osoby, które nie piją napojów alkoholowych, są jednakowo prawdopodobne (0,25) ze względu na sumy marginesów.

Konkretny stół użyty do FET nie ma stołu oprócz jego odwrotnej sytuacji, 5 kobiet pijących napoje bezalkoholowe i 5 mężczyzn pijących napoje gazowane, co jest „co najmniej tak mało prawdopodobne” pod hipotezą zerową. Zauważysz więc, że podwojenie prawdopodobieństwa uzyskanego w gęstości hipergeometrycznej daje wartość p FET.

— AdamO
źródło

Notatki Menga dotyczące phypera i fisher.testa (które robią to samo, ale mają zupełnie inny interfejs) są bardzo pomocne: mengnote.blogspot.qa/2012/12/…

— Aditya