To dobre pytanie, ale duże. Nie sądzę, żebym mógł udzielić pełnej odpowiedzi, ale wyrzucę trochę jedzenia do namysłu.
Po pierwsze, pod twoim najwyższym punktem, poprawka, o której mówisz, jest znana jako korekta ciągłości Yatesa . Problem polega na tym, że obliczamy dyskretną statystykę wnioskowania:
(Jest dyskretny, ponieważ przy skończonej liczbie wystąpień przedstawionych w tabeli awaryjnej istnieje skończona liczba możliwych zrealizowanych wartości, które może przyjąć ta statystyka). Niezależnie od tego faktu, porównuje się go zciągłymrozkładem odniesienia (mianowicie,rozkładχ2ze stopniami swobody(r-1)(c-1)). To z konieczności prowadzi do niedopasowania na pewnym poziomie. Przy szczególnie małym zestawie danych i jeśli niektóre komórki mają oczekiwane wartości mniejsze niż 5, możliwe jest, że wartość p może być zbyt mała. Korekta Yatesa dostosowuje się do tego.
χ2=∑(O−E)2E
χ2 ( r - 1 ) ( c -1)
Jak na ironię ten sam podstawowy problem (niedopasowanie dyskretne-ciągłe) może prowadzić do zbyt wysokich wartości p . W szczególności wartość p jest tradycyjnie definiowana jako prawdopodobieństwo otrzymania danych, które są tak ekstremalne lub większeniż zaobserwowane dane. Przy ciągłych danych rozumie się, że prawdopodobieństwo uzyskania jakiejkolwiek dokładnej wartości jest znikomo małe, a zatem naprawdę mamy prawdopodobieństwo, że dane są bardziej ekstremalne. Jednak w przypadku danych dyskretnych istnieje skończone prawdopodobieństwo uzyskania danych takich jak twoje. Tylko obliczenie prawdopodobieństwa uzyskania bardziej ekstremalnych danych niż twoje daje nominalne wartości p, które są zbyt niskie (co prowadzi do zwiększenia błędów typu I), ale uwzględnienie prawdopodobieństwa otrzymania danych takich samych jak twoje prowadzi do nominalnych wartości p, które są zbyt wysokie (co doprowadziłoby do zwiększenia błędów typu II). Fakty te podpowiadają ideę średniej wartości p . Zgodnie z tym podejściem wartość p oznacza prawdopodobieństwo danych bardziej ekstremalnych niż twoje plus połowa prawdopodobieństwo danych jest takie samo jak twoje.
Jak wskazano, istnieje wiele możliwości testowania danych tabeli awaryjnej. Najbardziej kompleksowe podejście do zalet i wad różnych podejść znajduje się tutaj . Ten papier jest specyficzny dla tabel 2x2, ale nadal możesz wiele się dowiedzieć o opcjach danych tabeli awaryjnej, czytając go.
Myślę też, że warto poważnie rozważyć modele. Starsze testy, takie jak chi-kwadrat, są szybkie, łatwe i zrozumiałe dla wielu osób, ale nie pozostawiają tak kompleksowego zrozumienia danych, jakie można uzyskać po zbudowaniu odpowiedniego modelu. Jeśli uzasadnione jest myślenie o wierszach [kolumnach] tabeli nieprzewidzianych zdarzeń jako zmiennej odpowiedzi, a kolumnach [wierszach] o zmiennych objaśniających / predyktorów, podejście do modelowania jest dość łatwe. Na przykład, jeśli masz tylko dwa wiersze, możesz zbudować model regresji logistycznej ; jeśli jest kilka kolumn, możesz użyć kodowania komórki referencyjnej (kodowanie pozorowane), aby zbudować model typu ANOVA. Z drugiej strony, jeśli masz więcej niż dwa wiersze, wielomianowa regresja logistycznamoże być używany w ten sam sposób. Jeśli wiersze mają wewnętrzny porządek, porządkowa regresja logistyczna zapewni lepszą wydajność niż wielomian. Moim zdaniem model logarytmiczno-liniowy (regresja Poissona) jest prawdopodobnie mniej istotny, chyba że masz tabele zdarzeń z więcej niż dwoma wymiarami.
Aby uzyskać kompleksowe omówienie takich tematów, najlepsze źródła to książki Agresti: albo jego pełne omówienie (bardziej rygorystyczne), jego wstępna książka (łatwiejsza, ale wciąż obszerna i bardzo dobra), albo być może także jego książka porządkowa .
sol2)-test
sol2)= ∑ O ⋅ ln ( Omi)