Na jakim poziomie test

TŁO: Pomiń bezpiecznie - jest tutaj w celach informacyjnych i uzasadnia pytanie.

Otwarcie tego artykułu brzmi:

„Słynny test przygodności chi-kwadrat Karla Pearsona pochodzi z innej statystyki, zwanej statystyką z, opartej na rozkładzie normalnym. Najprostsze wersje mogą być matematycznie identyczne z równoważnymi testami z. Testy dają taki sam wynik we wszystkich okolicznościach. Dla wszystkich celów i celów „chi-kwadrat” można by nazwać „z-kwadrat”. Wartości krytyczne dla jednego stopnia swobody są kwadratem odpowiednich wartości krytycznych z. ” $\chi^2$ $\chi^2$

Zostało to wielokrotnie potwierdzone w CV ( tutaj , tutaj , tutaj i innych).

I rzeczywiście możemy udowodnić, że jest równoważne z : $\chi^2_{1\,df}$ $X^2$ $X\sim N(0,1)$

Powiedzmy, że i że i znajdź gęstość za pomocą metody : $X \sim N(0,1)$ $Y=X^2$ $Y$ $cdf$

$p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})$ . Problem polega na tym, że nie możemy zintegrować w ścisłej postaci gęstości rozkładu normalnego. Ale możemy to wyrazić:

F_{X} (y) = F_{X} (\sqrt{y}) - F_{X} (- \sqrt{y}) .

$F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).$ Biorąc pochodną:

f_{X} (y) = F_{X}^{'} (\sqrt{y}) \frac{1}{2 \sqrt{y}} + F_{X}^{'} (\sqrt{- y}) \frac{1}{2 \sqrt{y}} .

$f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}.$

Ponieważ wartości normalnego $pdf$ są symetryczne:

$f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}$ . Zrównanie tego z normalnego (teraz w będzie aby być podłączonym do części normalnego ); i pamiętając o dołączeniu na końcu : $pdf$ $x$ $pdf$ $\sqrt{y}$ $e^{-\frac{x^2}{2}}$ $pdf$ $\frac{1}{\sqrt{y}}$

f_{X} (y) = F_{X}^{'} (\sqrt{y}) \frac{1}{\sqrt{y}} = \frac{1}{\sqrt{2 π}} e^{- \frac{y}{2}} \frac{1}{\sqrt{y}} = \frac{1}{\sqrt{2 π}} e^{- \frac{y}{2}} y^{\frac{1}{2} - 1}

$f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1}$

Porównaj z pdf kwadratu chi:

f_{X} (x) = \frac{1}{2^{ν / 2} Γ (\frac{ν}{2})} e^{\frac{- x}{2}} x^{\frac{ν}{2} - 1}

$f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1}$

Ponieważ , dla df uzyskaliśmy dokładnie kwadratu chi. $\Gamma(1/2)=\sqrt{\pi}$ $1$ $pdf$

Ponadto, jeśli wywołamy funkcję prop.test()w R , wywołujemy ten sam test jak gdybyśmy zdecydowali . $\chi^2$ chisq.test()

PYTANIE:

Dostaję więc wszystkie te punkty, ale wciąż nie wiem, jak odnoszą się one do faktycznej implementacji tych dwóch testów z dwóch powodów:

Test Z nie jest podniesiony do kwadratu.
Rzeczywiste statystyki testów są zupełnie inne:

Wartość statystyki testowej dla $\chi^2$ wynosi:

$\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i} = N \sum_{i=1}^n p_i \left(\frac{O_i/N - p_i}{p_i}\right)^2$ gdzie

$\chi^2$ = skumulowana statystyka testu Pearsona, która asymptotycznie zbliża się do . = liczba obserwacji typu ; = całkowita liczba obserwacji; = = oczekiwana (teoretyczna) częstotliwość typu , potwierdzona hipotezą zerową, że ułamek typu w populacji wynosi ; = liczba komórek w tabeli. $\chi^2$ $O_i$ $i$ $N$ $E_i$ $N p_i$ $i$ $i$ $p_i$ $n$

Z drugiej strony statystyka testu dla testu wynosi: $z$

$\displaystyle Z = \frac{\frac{x_1}{n_1}-\frac{x_2}{n_2}}{\sqrt{p\,(1-p)(1/n_1+1/n_2)}}$ z , gdzie i to liczba „sukcesów” w stosunku do liczby przedmiotów na każdym z poziomów kategorii zmienne, tj. i . $\displaystyle p = \frac{x_1\,+\,x_2}{n_1\,+\,n_2}$ $x_1$ $x_2$ $n_1$ $n_2$

Ta formuła wydaje się opierać na rozkładzie dwumianowym.

Te dwie statystyki testów są wyraźnie różne i dają różne wyniki dla faktycznych statystyk testu, a także dla wartości p : 5.8481dla i dla testu z, gdzie ( dziękuję, @ mark999). Wartość p dla wynosi , podczas gdy dla testu z jest . Różnica wyjaśniona przez dwustronne versus jednostronne: (dziękuję @amoeba). $\chi^2$ 2.4183 $\small 2.4183^2=5.84817$ $\chi^2$ 0.015590.0077 $\small 0.01559/2=0.007795$

Więc na jakim poziomie mówimy, że są jednym i tym samym?

chi-squared proportion z-test

— Antoni Parellada
źródło

Ale są to dwa identyczne testy. Kwadrat Z to statystyka chi-kwadrat. Niech masz tabelę częstotliwości 2x2, w której kolumny to dwie grupy, a wiersze to „sukces” i „niepowodzenie”. Następnie tak zwane oczekiwane częstotliwości testu chi-kwadrat w danej kolumnie jest ważonym (przez N grup) średnim profilem kolumny (grupy) pomnożonym przez N. tej grupy. Okazuje się zatem, że chi-kwadrat testuje odchylenie każdy z dwóch profili grup z tego średniego profilu grupowego, co jest równoważne z testowaniem różnic między profilami grup, testem proporcji z.

— ttnphns

W przykładzie na ostatnim hiperłączu jest prawie kwadratem statystyki testu z, ale nie do końca, a wartości p są różne. Ponadto, jeśli spojrzysz na powyższe wzory dla pozostałych statystyk, czy naprawdę jest naprawdę natychmiastowe, że są identyczne? A może nawet jeden kwadrat drugiego?

χ^{2}

$\chi^2$

— Antoni Parellada,

W chisq.test(), próbowałeś używać correct=FALSE?

— mark999

Rzeczywiście, Antoni. Oba testy istnieją z lub bez Yatesa. Czy to możliwe, że obliczasz jeden z drugim, ale drugi bez niego?

— ttnphns,

Dziękuję Ci! Miałeś (przewidywalnie) rację. Przy wyłączonej korekcie Yatesa jedna jest tylko kwadratem drugiej. Zredagowałem to pytanie odpowiednio, choć trochę szybko. Nadal chciałbym udowodnić algebraicznie, że obie statystyki testowe są takie same (lub jeden kwadrat drugiego) i zrozumieć, dlaczego wartości p są różne.

— Antoni Parellada,

Miejmy tabelę częstotliwości 2x2, w której kolumny to dwie grupy respondentów, a wiersze to dwie odpowiedzi „Tak” i „Nie”. I zamieniliśmy częstotliwości na proporcje w grupie, tj. Na profile pionowe :

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

Zwykły (nie poprawiony przez Yatesa) tej tabeli, po zastąpieniu proporcji zamiast częstotliwości w jej formule, wygląda następująco: $\chi^2$

n_{1} [\frac{(p_{1} - p)^{2}}{p} + \frac{(q_{1} - q)^{2}}{q}] + n_{2} [\frac{(p_{2} - p)^{2}}{p} + \frac{(q_{2} - q)^{2}}{q}] = \frac{n_{1} (p_{1} - p)^{2} + n_{2} (p_{2} - p)^{2}}{p q} .

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}]= \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$

Pamiętaj, że , element średniej ważonej profilu dwóch profili i , i podłącz go do formuły, aby uzyskać $p= \frac{n_1p_1+n_2p_2}{n_1+n_2}$ (p1,q1)(p2,q2)

. . . = \frac{(p_{1} - p_{2})^{2} (n_{1}^{2} n_{2} + n_{1} n_{2}^{2})}{p q N^{2}}

$...= \frac{(p_1-p_2)^2(n_1^2n_2+n_1n_2^2)}{pqN^2}$

Podziel zarówno licznik, jak i mianownik przez $(n_1^2n_2+n_1n_2^2)$ i uzyskaj

\frac{(p_{1} - p_{2})^{2}}{p q (1 / n_{1} + 1 / n_{2})} = Z^{2},

$\frac{(p_1-p_2)^2}{pq(1/n_1+1/n_2)}=Z^2,$

kwadratowa statystyka Z testu Z proporcji dla odpowiedzi „Tak”.

Więc 2x2 jednorodność statystyki chi-kwadrat (i test) jest równoważna testowi z dwóch proporcji. Tak zwane częstotliwości oczekiwane obliczone w teście chi-kwadrat w danej kolumnie to ważony (przez grupę n) średni profil pionowy (tj. Profil „grupy średniej”) pomnożony przez profil tej grupy n. Okazuje się zatem, że chi-kwadrat testuje odchylenie każdego z dwóch profili grup od tego średniego profilu grupowego, co jest równoważne testowaniu różnic między profilami grup, co jest testem z proporcji.

Jest to jedna demonstracja powiązania między miarą asocjacji zmiennych (chi-kwadrat) a miarą różnicy w grupie (statystyka testu z). Powiązania atrybutów i różnice grup są (często) dwoma aspektami tego samego.

(Pokazuje rozwinięcie w pierwszym wierszu powyżej, prośba @ Antoni):

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}] = \frac{n_1(p_1-p)^2q}{pq}+\frac{n_1(q_1-q)^2p}{pq}+\frac{n_2(p_2-p)^2q}{pq}+\frac{n_2(q_2-q)^2p}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(1-p_1-1+p)^2p+n_2(p_2-p)^2(1-p)+n_2(1-p_2-1+p)^2p}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(p-p_1)^2p+n_2(p_2-p)^2(1-p)+n_2(p-p_2)^2p}{pq} = \frac{[n_1(p_1-p)^2][(1-p)+p]+[n_2(p_2-p)^2][(1-p)+p]}{pq} = \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$

— ttnphns
źródło

@ttnphs To jest świetne! Każda szansa, że możesz wyjaśnić etap pośredni w formule pierwszego równania ( ) - Nie widzę, jak ustępuje po znaku równości.

χ^{2}

$\chi^2$

q

$q$

— Antoni Parellada,

@ttnphs Po rozwinięciu otrzymuję

n_{1} [\frac{(p_{1} - p)^{2}}{p} + \frac{(q_{1} - q)^{2}}{q}] + n_{2} [\frac{(p_{2} - p)^{2}}{p} + \frac{(q_{2} - q)^{2}}{q}] = n_{1} (\frac{q (p^{2} + p (- 2 p_{1} - 2 q_{1} + p_{1}^{2}) + p (q^{2} + q_{1}^{2})}{p q}) + n_{2} (\frac{q (p^{2} + p (- 2 p_{2} - 2 q_{2}) + p_{2}^{2}) + p (q^{2} + q_{2}^{2})}{p q})

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}]=n_1(\frac{q(p^2+p(-2p_1-2q_1+p_1^2)+p(q^2+q_1^2)}{pq})+n_2(\frac{q(p^2+p(-2p_2-2q_2)+p_2^2)+p(q^2+q_2^2)}{pq})$

— Antoni Parellada,

@ttnphs ... Lub jakieś referencje, więc pisanie lateksu jest mniej pracochłonne ... A ja natychmiast i szczęśliwie „przyjmuję” odpowiedź ...

— Antoni Parellada

@Antoni, wstawiono rozszerzenie.

— ttnphns

@ttnphns Awesome!

— Antoni Parellada,