Jaka jest statystyka testowa w dokładnym teście Fishera?

9

W przypadku tabeli awaryjnej 2 na 2 niektórzy powiedzieli, że dokładny test Fishera wykorzystuje liczbę w komórce (1,1) w tabeli jako statystykę testu, a pod hipotezą zerową będzie mieć rozkład hipergeometryczny. $X_{1,1}$ $X_{1,1}$

Niektórzy twierdzą, że jego statystyki testowe to gdzie jest średnią rozkładu hipergeometrycznego (wspomnianego powyżej) pod wartością null. Stwierdzono również, że wartości p określa się na podstawie tabeli rozkładu hipergometrycznego. Zastanawiałem się, czy istnieje jakiś powód, aby odjąć średnią, a następnie przyjąć wartość bezwzględną? nie ma rozkładu hipergeometrycznego poniżej wartości zerowej, prawda?

| X_{1, 1} - μ |

$|X_{1,1} - \mu|$

μ

$\mu$

| X_{1, 1} - μ |

$|X_{1,1} - \mu|$

hypothesis-testing fishers-exact hypergeometric

— Tim
źródło

10

(Aby uczynić nasze pojęcia nieco bardziej precyzyjnymi, nazwijmy „statystykę testową” rozkładem rzeczy, na którą patrzymy, aby faktycznie obliczyć wartość p. Oznacza to, że dla dwustronnego testu t nasza statystyka testowa byłaby zamiast ) $|T|$ $T$

Co statystyka testowa ma to wywołać na próbie uporządkowania przestrzeni (a ściślej, częściową zamówieniu), tak aby można było zidentyfikować przypadki skrajne (te najbardziej spójne z alternatywnej).

W przypadku dokładnego testu Fishera istnieje już pewna kolejność - które są prawdopodobieństwami samych różnych tabel 2x2. Tak się składa, że odpowiadają one kolejności na w tym sensie, że albo największa, albo najmniejsza wartość jest „ekstremalna”, a także te o najmniejszym prawdopodobieństwie. Zamiast więc patrzeć na wartości w sposób, który sugerujesz, możesz po prostu pracować z dużymi i małymi końcami, na każdym kroku dodając dowolną wartość (największy lub najmniejszy $X_{1,1}$ $X_{1,1}$ $X_{1,1}$ $X_{1,1}$ -wartość jeszcze tam nie ma) ma najmniejsze związane z tym prawdopodobieństwo, trwające do momentu dotarcia do obserwowanego stołu; po włączeniu całkowitego prawdopodobieństwa wszystkich tych skrajnych tabel jest wartość p.

Oto przykład:

funkcja prawdopodobieństwa hipergeometrycznego

> data.frame(x=x,prob=dhyper(x,9,12,10),rank=rank(dhyper(x,9,12,10)))
   x         prob rank
1  0 1.871194e-04    2
2  1 5.613581e-03    4
3  2 5.052223e-02    6
4  3 1.886163e-01    8
5  4 3.300786e-01   10
6  5 2.829245e-01    9
7  6 1.178852e-01    7
8  7 2.245433e-02    5
9  8 1.684074e-03    3
10 9 3.402171e-05    1

Pierwsza kolumna to wartości , druga kolumna to prawdopodobieństwa, a trzecia kolumna to indukowane uporządkowanie. $X_{1,1}$

Tak więc w konkretnym przypadku dokładnego testu Fishera prawdopodobieństwo każdej tabeli (równoważnie każdej wartości ) można uznać za rzeczywistą statystykę testu $X_{1,1}$ .

Jeśli porównasz sugerowaną statystykę testu, wywołuje to samo uporządkowanie w tym przypadku (i myślę, że robi to ogólnie, ale nie sprawdziłem), ponieważ większe wartości tej statystyki to mniejsze wartości prawdopodobieństwa, więc można ją również uznać za „statystykę” - ale tak samo wiele innych wielkości - w istocie każda, która zachowuje tę kolejność we wszystkich przypadkach, to równoważne statystyki testowe, ponieważ zawsze wytwarzają identyczne wartości p. $|X_{1,1}-\mu|$ $X_{1,1}$

Należy również zauważyć, że dzięki bardziej precyzyjnemu pojęciu „statystyki testowej” wprowadzonej na początku, żadna z możliwych statystyk testowych tego problemu nie ma rozkładu hipergeometrycznego; tak, ale w rzeczywistości nie jest to odpowiednia statystyka testowa dla testu dwustronnego (gdybyśmy wykonali test jednostronny, w którym tylko więcej asocjacji w głównej przekątnej, a nie w drugiej przekątnej, uznano za zgodne z alternatywnie, byłaby to statystyka testowa). To jest ten sam problem, który zacząłem od jednej strony / dwóch stron. $X_{1,1}$

[Edycja: niektóre programy przedstawiają statystyki testowe dla testu Fishera; Zakładam, że byłoby to obliczenie typu -2logL, które byłoby asymptotycznie porównywalne z kwadratem chi. Niektórzy mogą również przedstawiać iloraz szans lub jego log, ale to nie jest całkiem równoważne.]

— Glen_b - Przywróć Monikę
źródło

Dzięki, Glen_b! rozkład poniżej wartości zerowej jest rozkładem hipergeometrycznym, który nie jest symetryczny wokół jego średniej . Zastanawiałem się więc, czyczy rozsądna statystyka testowa?

X_{1, 1}

$X_{1,1}$

μ

$\mu$

| X_{1, 1} - μ |

$|X_{1,1} - \mu|$

— Tim

Wydaje się to wyjątkowo rozsądną statystyką testową, ponieważ jest całkowicie interpretowalna i łatwo zrozumiała. Rzeczywiście żadna z możliwych statystyk nie będzie miała symetrycznego rozkładu. Zapomnijmy na chwilę o szczegółach testu Fishera - jeśli ta statystyka jest dla Ciebie znacząca, możesz obliczyć na tej podstawie dokładny test (używając obliczeń hipergeometrycznych do znalezienia prawdopodobieństw). Jeśli chcesz pokazać, że we wszystkich przypadkach wywołują tę samą kolejność, to prawdopodobnie nowe pytanie.

— Glen_b

6

$|X_{1,1} - \mu|$ ogólnie nie może mieć rozkładu hipergeometrycznego, ponieważ nie musi być liczbą całkowitą, a następnienie byłby liczbą całkowitą. Ale warunkowo na marginesach, będzie miał rozkład hipergeometryczny. $\mu$ $|X_{1,1} - \mu|$ $X_{1,1}$

Jeśli zrobisz to poprawnie i naprawisz marginesy na znanych wartościach, możesz uznać (lub dowolną inną komórkę) za swoją statystykę. Analogicznie do losowania kulek z urny zawierającej białe kule i czarne kule bez zamiany, można interpretować jako liczbę narysowanych białych kulek, gdzie jest sumą pierwszego rzędu, jest suma drugiego wiersza, jest sumą pierwszej kolumny. $X_{1,1}$ $k$ $W$ $B$ $X_{1,1}$ $B$ $W$ $k$

— gui11aume
źródło

4

Tak naprawdę to nie ma. Statystyka testowa jest historyczną anomalią - jedynym powodem, dla którego mamy statystykę testową, jest uzyskanie wartości p. Dokładny test Fishera przeskakuje obok statystyki testowej i przechodzi bezpośrednio do wartości p.

— Jeremy Miles
źródło

Dziękuję, ale czy naprawdę nie ma statystyki testowej? Jak zatem określasz wartość p?

— Tim

Wynik dokładnego testu Fishera to wartość p.

— Jeremy Miles

@JeremyMiles: Czy masz na myśli, że statystyki testowe to anomalie historyczne, w których przed obliczeniami o niskim koszcie użytkownicy obliczali Z, t itd., A następnie porównali tę statystykę testową z wcześniej obliczonymi tabelami w celu ustalenia istotności statystycznej, w wyniku czego wielu obecnych użytkowników wnioskowania statystycznego nadal myśli w kategoriach statystyki testowej, kiedy równie łatwo może podać wartość p? Innymi słowy, czy jest to rodzaj efektu pokoleniowego?

— rabidotter

1

@rabidotter - tak, chyba tak. Widzisz ludzi, którzy piszą „F = 14,352, df = 2, 568, p <0,05”. Praktycznie jedynym powodem, dla którego kogo obchodzi F, jest obliczanie P, ale daje F ogromną precyzję, a p bardzo małą precyzję.

— Jeremy Miles