Zależność między przedziałem ufności a testową hipotezą statystyczną dla testu t

31

Powszechnie wiadomo, że przedziały ufności i testowanie hipotez statystycznych są ściśle powiązane. Moje pytania koncentrują się na porównaniu średnich dla dwóch grup w oparciu o zmienną numeryczną. Załóżmy, że taka hipoteza jest testowana przy użyciu testu t. Z drugiej strony można obliczyć przedziały ufności dla średnich z obu grup. Czy istnieje jakikolwiek związek między nakładaniem się przedziałów ufności a odrzuceniem hipotezy zerowej, która oznacza, że średnie są równe (na korzyść alternatywy, która oznacza różnicę - test dwustronny)? Na przykład test może odrzucić hipotezę zerową, jeśli przedziały ufności nie pokrywają się.

hypothesis-testing confidence-interval

— Lan
źródło

31

Tak, istnieje kilka prostych zależności między porównaniami przedziału ufności a testami hipotez w szerokim zakresie praktycznych ustawień. Jednak oprócz weryfikacji procedur CI i testu t są odpowiednie dla naszych danych, musimy sprawdzić, czy rozmiary próbek nie są zbyt różne i czy oba zestawy mają podobne odchylenia standardowe. Nie powinniśmy również próbować uzyskiwać bardzo precyzyjnych wartości p na podstawie porównania dwóch przedziałów ufności, ale powinniśmy się cieszyć z opracowania skutecznych przybliżeń.

Próbując pogodzić dwie już udzielone odpowiedzi (@John i @Brett), pomaga być matematycznie jednoznacznym. Wzór na symetryczny dwustronny przedział ufności odpowiedni dla ustawienia tego pytania to

CI = m \pm \frac{t_{α} (n) s}{\sqrt{n}}

$\text{CI} = m \pm \frac{t_\alpha(n) s}{\sqrt{n}}$

gdzie $m$ jest średnią próbki z $n$ niezależnych obserwacji, $s$ jest odchyleniem standardowym próbki, $2\alpha$ jest pożądanym rozmiarem testu (maksymalna częstość fałszywie dodatnich wyników), a $t_\alpha(n)$ jest górnym $1-\alpha$ percentylem rozkładu t Studenta z $n-1$ stopniami swobody. (To niewielkie odchylenie od tradycyjnej notacji upraszcza ekspozycję, eliminując potrzebę zamieszania nad rozróżnieniem $n$ vs $n-1$ , co i tak będzie nieistotne.)

Wykorzystując indeksy dolne $1$ i $2$ do rozróżnienia dwóch niezależnych zestawów danych do porównania, przy czym $1$ odpowiada większej z dwóch średnich, brak nakładania się przedziałów ufności wyraża się przez nierówność (dolny limit ufności 1) $\gt$ (górny limit ufności 2 ); mianowicie. ,

m_{1} - \frac{t_{α} (n_{1}) s_{1}}{\sqrt{n_{1}}} > m_{2} + \frac{t_{α} (n_{2}) s_{2}}{\sqrt{n_{2}}} .

$m_1 - \frac{t_\alpha(n_1) s_1}{\sqrt{n_1}} \gt m_2 + \frac{t_\alpha(n_2) s_2}{\sqrt{n_2}}.$

Można to zrobić tak, aby wyglądało jak statystyka t odpowiedniego testu hipotezy (w celu porównania dwóch średnich) z prostymi manipulacjami algebraicznymi, dając

\frac{m_{1} - m_{2}}{\sqrt{s_{1}^{2} / n_{1} + s_{2}^{2} / n_{2}}} > \frac{s_{1} \sqrt{n_{2}} t_{α} (n_{1}) + s_{2} \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} s_{2}^{2} + n_{2} s_{1}^{2}}} .

$\frac{m_1-m_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \gt \frac{s_1\sqrt{n_2}t_\alpha(n_1) + s_2\sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 s_2^2 + n_2 s_1^2}}.$

Lewa strona to statystyka stosowana w teście hipotez; zwykle porównuje się go do percentyla rozkładu t Studenta przy $n_1+n_2$ stopniach swobody: to znaczy do $t_\alpha(n_1+n_2)$ . Prawa strona to tendencyjna średnia ważona oryginalnych t percentyli rozkładu.

Dotychczasowa analiza uzasadnia odpowiedź @Brett: wydaje się, że nie ma prostej relacji. Przyjrzyjmy się jednak dalej. Inspiruje mnie to, ponieważ intuicyjnie brak nakładania się przedziałów ufności powinien coś powiedzieć!

Po pierwsze, zauważ, że ta forma testu hipotez jest ważna tylko wtedy, gdy oczekujemy, że $s_1$ i $s_2$ będą co najmniej w przybliżeniu równe. (W przeciwnym razie napotkamy znany problem Behrensa-Fishera i jego złożoność.) Po sprawdzeniu przybliżonej równości $s_i$ możemy następnie stworzyć przybliżone uproszczenie w formularzu

\frac{m_{1} - m_{2)}}{s \sqrt{1 / n_{1} + 1 / n_{2)}}} > \frac{\sqrt{n_{2)}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2)})}{\sqrt{n_{1} + n_{2)}}} .

$\frac{m_1-m_2}{s\sqrt{1/n_1 + 1/n_2}} \gt \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}.$

Tutaj $s \approx s_1 \approx s_2$ . Realistycznie nie należy oczekiwać, że to nieformalne porównanie granic ufności będzie miało taki sam rozmiar jak $\alpha$ . Nasze pytanie brzmi zatem, czy istnieje takie $\alpha'$ , że prawa strona jest (przynajmniej w przybliżeniu) równa poprawnej statystyce t. Mianowicie, o co chodzi w przypadku $\alpha'$

t_{α^{'}} (n_{1} + n_{2}) = \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} ?

$t_{\alpha'}(n_1+n_2) = \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}\text{?}$

Okazuje się, że dla równych rozmiarów próbek $\alpha$ i $\alpha'$ są połączone (z dość dużą dokładnością) przez prawo mocy. Na przykład, tutaj jest wykres logarytmiczny dwóch dla przypadków $n_1=n_2=2$ (najniższa niebieska linia), $n_1=n_2=5$ (środkowa czerwona linia), $n_1=n_2=\infty$ ( najwyższa złota linia). Środkowa zielona przerywana linia jest przybliżeniem opisanym poniżej. Prostoliniowość tych krzywych przeczy prawu mocy. Zależy od $n=n_1=n_2$ , ale niewiele.

Działka 1

Odpowiedź zależy od zestawu $\{n_1, n_2\}$ , ale naturalne jest zastanawianie się, jak bardzo różni się ona wraz ze zmianami wielkości próby. W szczególności możemy mieć nadzieję, że w przypadku średnich lub dużych rozmiarów próbek (może $n_1 \ge 10, n_2 \ge 10$ lub mniej więcej) wielkość próby nie ma większego znaczenia. W takim przypadku moglibyśmy opracować ilościowy sposób powiązania $\alpha'$ z $\alpha$ .

Takie podejście okazuje się skuteczne, pod warunkiem, że rozmiary próbek nie różnią się zbytnio od siebie. W duchu prostoty przedstawię formułę omnibus do obliczania rozmiaru testu $\alpha'$ odpowiadającego rozmiarowi przedziału ufności $\alpha$ . To jest

α^{'} \approx e α^{1.91};

$\alpha' \approx e \alpha^{1.91};$

to jest,

α^{'} \approx \exp (1 + 1.91 \log (α)) .

$\alpha' \approx \exp(1 + 1.91\log(\alpha)).$

Ta formuła działa dość dobrze w następujących typowych sytuacjach:

Obie wielkości próbek są blisko siebie, $n_1 \approx n_2$ , a $\alpha$ nie jest zbyt ekstremalne ( $\alpha \gt .001$ lub więcej).
Wielkość jednej próbki jest w przybliżeniu trzy razy większa od drugiej, a najmniejsza nie jest zbyt mała (z grubsza, większa niż $10$ ) i znowu $\alpha$ nie jest zbyt ekstremalna.
Wielkość jednej próbki jest trzy razy większa od drugiej, a $\alpha \gt .02$ lub mniej więcej.

Tutaj wykreślono błąd względny (poprawna wartość podzielona przez przybliżenie) w pierwszej sytuacji, przy czym dolna (niebieska) linia pokazuje przypadek $n_1=n_2=2$ , środkowa (czerwona) linia przypadek $n_1=n_2=5$ , a górna (złota) linia w przypadku $n_1=n_2=\infty$ . Interpolując między tymi dwoma ostatnimi, widzimy, że aproksymacja jest doskonała dla szerokiego zakresu praktycznych wartości $\alpha$ gdy wielkości próbek są umiarkowane (około 5-50), a poza tym jest dość dobra.

Wykres 2

Jest to więcej niż wystarczające do spojrzenia na przedziały ufności.

$2\alpha$ $2e \alpha^{1.91}$

$2\alpha$

$2\alpha$ $2\alpha'$

0,05 0,005

0,01 0,0002

0,005 0,00006

$2\alpha=.05$ $p \lt .005$ $n$ $.0037$ $n=2$ $.0056$ $n=\infty$

Ten wynik uzasadnia (i mam nadzieję, że poprawi się) odpowiedź @John. Tak więc, chociaż poprzednie odpowiedzi wydają się być w konflikcie, obie są (na swój sposób) poprawne.

— Whuber
źródło

7

Nie, przynajmniej nie jest to proste.

Istnieje jednak dokładna zgodność między testem t różnicy między dwoma średnimi a przedziałem ufności dla różnicy między dwoma średnimi.

Jeżeli przedział ufności dla różnicy między dwoma średnimi zawiera zero, test t dla tej różnicy nie odrzuciłby wartości zerowej na tym samym poziomie ufności. Podobnie, jeśli przedział ufności nie zawiera 0, test t odrzuciłby zero.

To nie jest to samo, co nakładanie się przedziałów ufności dla każdego z tych dwóch środków.

— Brett
źródło

Odpowiedź @Johna, która choć obecnie nie jest dokładnie w szczegółach, poprawnie wskazuje, że tak, można powiązać nakładanie się CI do testowania wartości p. Związek nie jest bardziej złożony niż sam test t. Wygląda to na sprzeczne z twoją pierwotną konkluzją, jak stwierdzono w pierwszym wierszu. Jak rozwiązałbyś tę różnicę?

— whuber

Nie sądzę, by były ze sobą sprzeczne. Mogę dodać pewne zastrzeżenia. Ale w ogólnym sensie, bez dodatkowych założeń i wiedzy o parametrach poza prezentacją przedziału (wariancja, wielkość próby) odpowiedź pozostaje bez zmian. Nie, przynajmniej nie jest to proste.

— Brett,

5

Przy typowych założeniach równej wariancji, tak, istnieje związek. Jeśli słupki nachodzą na siebie o mniej niż długość jednego słupka * sqrt (2), wówczas test t wykazałby, że różnią się one znacznie przy alfa = 0,05. Jeśli końce słupków ledwo się dotykają, różnica byłaby na poziomie 0,01. Jeśli przedziały ufności dla grup nie są równe, zwykle przyjmuje się średnią i stosuje tę samą zasadę.

Alternatywnie, jeśli szerokość przedziału ufności wokół jednego ze średnich jest w, to najmniej znaczącą różnicą między dwiema wartościami jest w * sqrt (2). Jest to proste, gdy myślisz o mianowniku w niezależnym teście grupowym sqrt (2 * MSE / n) i współczynniku CI, który sqrt (MSE / n).

(Przyjęto 95% CI)

Jest to prosty papier na wnioskowaniu z przedziałów ufności wokół niezależnych środków tutaj . Odpowie na to pytanie i wiele innych powiązanych z tym pytań.

Cumming, G., i Finch, S. (2005, marzec). Wnioskowanie wzrokowe: przedziały ufności i sposób odczytywania zdjęć danych. Amerykański psycholog , 60 (2), 170-180.

— Jan
źródło

2

Uważam, że należy również założyć, że dwie grupy mają takie same rozmiary.

— whuber

z grubsza, tak ...

— Jan