Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?

9

Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest znaczna w zależności od typu witryny. Jeśli wykonam kwadrat chi 2 x 3, otrzymam znaczący wynik. Czy jest możliwe porównanie post-hoc parami, które mogę uruchomić, czy rzeczywiście powinienem używać logistycznej ANOVA lub regresji z rozkładem dwumianowym? Dzięki!

logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

— chl
źródło

7

Tabela awaryjna powinna zawierać wszystkie wzajemnie wykluczające się kategorie na obu osiach. Przybrzeżne / środkowo-kanałowe / przybrzeżne wyglądają dobrze, jednak chyba że „mniej niż 100% śmiertelności” oznacza „100% przeżycia” w tym biologicznym otoczeniu, może być konieczne zbudowanie tabel uwzględniających wszystkie zaobserwowane przypadki lub wyjaśnienie, dlaczego ograniczasz swoją analizę do ekstremum końce próbki.

Ponieważ 100% przeżycia oznacza 0% śmiertelności, możesz mieć tabelę z kolumnami 100% = śmiertelność / 100%> śmiertelność> 0% / śmiertelność = 0%. W takim przypadku nie byłoby już więcej porównywania wartości procentowych, ale porównanie mierników śmiertelności porządkowej w trzech kategoriach typów witryn. (Co z użyciem oryginalnych wartości procentowych zamiast kategorii?) W tym przypadku może być odpowiednia wersja testu Kruskala-Wallisa, która odpowiednio uwzględnia powiązania (być może test permutacji).

Ustalono testy post hoc dla testu Kruskala-Wallisa: 1 , 2, 3 . (Podejście do ponownego próbkowania może pomóc w rozwiązaniu problemu z więzami).

Regresja logistyczna i regresja dwumianowa mogą być jeszcze lepsze, ponieważ dają nie tylko wartości p, ale także przydatne oszacowania i przedziały ufności wielkości efektów. Jednak, aby skonfigurować te modele, potrzebne byłyby dalsze szczegóły dotyczące 100%> śmiertelności> 0% stron.

— GaBorgulya
źródło

4

Zakładam, że „100% przetrwania” oznacza, że twoje strony zawierały tylko jeden organizm. 30 oznacza 30 organizmów, które umarły, a 31 oznacza 31 organizmów. Na tej podstawie chi-kwadrat powinien być w porządku, ale pokaże tylko, która hipoteza nie jest obsługiwana przez dane - nie powie ci, czy dwie rozsądne hipotezy są lepsze, czy nie. Przedstawiam analizę prawdopodobieństwa, która wyodrębnia te informacje - zgadza się z testem chi-kwadrat, ale daje więcej informacji niż test chi-kwadrat i lepszy sposób prezentacji wyników.

Model jest modelem Bernouli dla wskaźnika „śmierć”, ( oznacza komórkę tabeli , a oznacza pojedynczą jednostkę w obrębie komórka). $Y_{ij}\sim Bin(1,\theta_{ij})$ $i$ $2\times 3$ $j$

Istnieją dwa globalne założenia leżące u podstaw testu chi-kwadrat:

w danej komórce tabeli są równe, to znaczy $\theta_{ij}$ $\theta_{ij}=\theta_{ik}=\theta_{i}$
są statystycznie niezależne, ponieważ . Oznacza to, że parametry prawdopodobieństwa mówią ci wszystko o - wszystkie inne informacje są nieistotne, jeśli wiesz $Y_{ij}$ $\theta_{i}$ $Y_{ij}$ $\theta_{i}$

Oznacz jako sumę , (więc ) i niech będzie rozmiarem grupy (więc ). Teraz mamy hipotezę do przetestowania: $X_{i}$ $Y_{ij}$ $X_{1}=30,X_{2}=10,X_{3}=1$ $N_{i}$ $N_{1}=61,N_{2}=30,N_{3}=11$

H_{A} : θ_{1} = θ_{2}, θ_{1} = θ_{3}, θ_{2} = θ_{3}

$H_{A}:\theta_{1}=\theta_{2},\theta_{1}=\theta_{3},\theta_{2}=\theta_{3}$

Ale jakie są alternatywy? Powiedziałbym, że inne możliwe kombinacje równe lub nierówne.

H_{B 1} : θ_{1} \neq θ_{2}, θ_{1} \neq θ_{3}, θ_{2} = θ_{3}

$H_{B1}:\theta_{1}\neq\theta_{2},\theta_{1}\neq\theta_{3},\theta_{2}=\theta_{3}$

H_{B 2} : θ_{1} \neq θ_{2}, θ_{1} = θ_{3}, θ_{2} \neq θ_{3}

$H_{B2}:\theta_{1}\neq\theta_{2},\theta_{1}=\theta_{3},\theta_{2}\neq\theta_{3}$

H_{B 3} : θ_{1} = θ_{2}, θ_{1} \neq θ_{3}, θ_{2} \neq θ_{3}

$H_{B3}:\theta_{1}=\theta_{2},\theta_{1}\neq\theta_{3},\theta_{2}\neq\theta_{3}$

H_{C} : θ_{1} \neq θ_{2}, θ_{1} \neq θ_{3}, θ_{2} \neq θ_{3}

$H_{C}:\theta_{1}\neq\theta_{2},\theta_{1}\neq\theta_{3},\theta_{2}\neq\theta_{3}$

Jedna z tych hipotez musi być prawdziwa, biorąc pod uwagę powyższe „globalne” założenia. Należy jednak pamiętać, że żadna z nich nie określa konkretnych wartości stawek - dlatego należy je zintegrować. Biorąc pod uwagę, że jest prawdą, mamy tylko jeden parametr (ponieważ wszystkie są równe), a jednolity przełożony jest konserwatywnym wyborem, oznacz to i globalne założenia przez . więc mamy: $H_{A}$ $I_{0}$

P (X_{1}, X_{2}, X_{3} | N_{1}, N_{2}, N_{3}, H_{A}, I_{0}) = \int_{0}^{1} P (X_{1}, X_{2}, X_{3}, θ | N_{1}, N_{2}, N_{3}, H_{A}, I_{0}) d θ

$P(X_{1},X_{2},X_{3}|N_{1},N_{2},N_{3},H_{A},I_{0})=\int_{0}^{1}P(X_{1},X_{2},X_{3},\theta|N_{1},N_{2},N_{3},H_{A},I_{0})d\theta$

= (\binom{N_{1}}{X_{1}}) (\binom{N_{2}}{X_{2}}) (\binom{N_{3}}{X_{3}}) \int_{0}^{1} θ^{X_{1} + X_{2} + X_{3}} (1 - θ)^{N_{1} + N_{2} + N_{3} - X_{1} - X_{2} - X_{3}} d θ

$={N_{1} \choose X_{1}}{N_{2} \choose X_{2}}{N_{3} \choose X_{3}}\int_{0}^{1}\theta^{X_{1}+X_{2}+X_{3}}(1-\theta)^{N_{1}+N_{2}+N_{3}-X_{1}-X_{2}-X_{3}}d\theta$

= \frac{(\binom{N_{1}}{X_{1}}) (\binom{N_{2}}{X_{2}}) (\binom{N_{3}}{X_{3}})}{(N_{1} + N_{2} + N_{3} + 1) (\binom{N_{1} + N_{2} + N_{3}}{X_{1} + X_{2} + X_{3}})}

$=\frac{{N_{1} \choose X_{1}}{N_{2} \choose X_{2}}{N_{3} \choose X_{3}}}{(N_{1}+N_{2}+N_{3}+1){N_{1}+N_{2}+N_{3} \choose X_{1}+X_{2}+X_{3}}}$

Który jest rozkładem hipergeometrycznym podzielonym przez stałą. Podobnie dla będziemy mieli: $H_{B1}$

P (X_{1}, X_{2}, X_{3} | N_{1}, N_{2}, N_{3}, H_{B 1}, I_{0}) = \int_{0}^{1} P (X_{1}, X_{2}, X_{3}, θ_{1} θ_{2} | N_{1}, N_{2}, N_{3}, H_{B 1}, I_{0}) d θ_{1} d θ_{2}

$P(X_{1},X_{2},X_{3}|N_{1},N_{2},N_{3},H_{B1},I_{0})=\int_{0}^{1}P(X_{1},X_{2},X_{3},\theta_{1}\theta_{2}|N_{1},N_{2},N_{3},H_{B1},I_{0})d\theta_{1}d\theta_{2}$

= \frac{(\binom{N_{2}}{X_{2}}) (\binom{N_{3}}{X_{3}})}{(N_{1} + 1) (N_{2} + N_{3} + 1) (\binom{N_{2} + N_{3}}{X_{2} + X_{3}})}

$=\frac{{N_{2} \choose X_{2}}{N_{3} \choose X_{3}}}{(N_{1}+1)(N_{2}+N_{3}+1){N_{2}+N_{3} \choose X_{2}+X_{3}}}$

Możesz zobaczyć wzór dla innych. Możemy obliczyć szanse dla powiedzmy , po prostu dzieląc powyższe dwa wyrażenia. Odpowiedź wynosi około , co oznacza, że dane obsługują ponad o około -krotny - dość słaby dowód na korzyść równych stawek. Inne prawdopodobieństwa podano poniżej. $H_{A}\;vs\;H_{B1}$ $4$ $H_{A}$ $H_{B1}$ $4$

\begin{array}{cc} H y p o t h e s i s & p r o b a b i l i t y \\ (H_{A} | D) & 0.018982265 \\ (H_{B 1} | D) & 0.004790669 \\ (H_{B 2} | D) & 0.051620022 \\ (H_{B 3} | D) & 0.484155874 \\ (H_{C} | D) & 0.440451171 \end{array}

$\begin{array}{c|c} Hypothesis & probability \\ \hline (H_{A}|D) & 0.018982265 \\ (H_{B1}|D) & 0.004790669 \\ (H_{B2}|D) & 0.051620022 \\ (H_{B3}|D) & 0.484155874 \\ (H_{C}|D) & 0.440451171 \\ \end{array}$

To pokazuje mocne dowody przeciwko równym stawkom, ale nie ma mocnych dowodów przemawiających za alternatywą defintie. Wydaje się, że istnieją mocne dowody na to, że stawka „offshore” różni się od pozostałych dwóch stawek, ale nie są jednoznaczne dowody na to, czy stawki „przybrzeżne” i „środkowe kanały” różnią się. Tego nie powie ci test chi-kwadrat - mówi tylko, że hipoteza jest „badziewiem”, ale nie jaką alternatywą postawić na jej miejsce $A$

— prawdopodobieństwo prawdopodobieństwa
źródło

1

Oto kod do przeprowadzania testów chi-kwadrat oraz generowania różnorodnych statystyk testowych. Jednak testy statystyczne powiązania marginesów tabeli są tutaj bezużyteczne; odpowiedź jest oczywista. Nikt nie przeprowadza testu statystycznego, aby sprawdzić, czy lato jest cieplejsze niż zima.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)

— Patrick McCann
źródło

3

Byłoby interesujące dla czytelnika (i OP), gdybyś mógł podać szczegółowe informacje na temat różnej składni R (i testów podstawowych), które podałeś, a zwłaszcza porównania testu Kruskala-Wallisa z modelem logarytmiczno-liniowym.

— chl

Możesz to zobaczyć, kopiując i wklejając kod do konsoli R.

— Patrick McCann

1

Pewnie. Odpowiedzi pochodzą oczywiście od samego uruchomienia kodu.

— chl

0

Wierzę, że można użyć „równoczesnych przedziałów ufności” do robienia wielu porównań. Odniesieniem jest Agresti i in. 2008 Równoczesne przedziały ufności do porównywania parametrów dwumianowych. Biometria 64 1270-1275.

Odpowiedni kod R można znaleźć w http://www.stat.ufl.edu/~aa/cda/software.html

— Tu.2
źródło