Dlaczego testy chi-kwadrat używają oczekiwanej liczby jako wariancji?

W testach , jaka jest podstawa zastosowania pierwiastka kwadratowego z oczekiwanych zliczeń jako odchyleń standardowych (tj. Oczekiwanych zliczeń jako wariancji) każdej z rozkładów normalnych? Jedyne, co mogłem znaleźć, omawiając to w ogóle, to http://www.physics.csbsju.edu/stats/chi-square.html , i tylko wspomina o rozkładach Poissona. $\chi^2$

Jako prostą ilustrację mojego zamieszania, co gdybyśmy testowali, czy dwa procesy są znacząco różne, jeden, który generuje 500 As i 500 Bs z bardzo małą wariancją, a drugi, który generuje 550 As i 450 Bs z bardzo małą wariancją (rzadko generującą 551 As i 449 Bs)? Czy ta wariancja nie jest wyraźnie nie tylko oczekiwaną wartością?

(Nie jestem statystykiem, więc naprawdę szukam odpowiedzi dostępnej dla niespecjalistów).

hypothesis-testing chi-squared

— Yang
źródło

Prawdopodobnie ma to coś wspólnego z faktem, że wariancja zmiennej losowej wynosi a także z faktem, że statystyki należy pomnożyć przez 2, aby uzyskać prawidłowy rozkład (jak w test ilorazu wiarygodności). Być może ktoś wie o tym bardziej formalnie.

χ_{k}^{2}

$\chi^{2}_{k}$

2 k

$2k$

— Makro,

Odpowiedzi:

Ogólna forma wielu statystyk testowych to

$\frac{observed - expected}{standard error}$

W przypadku zmiennej normalnej błąd standardowy opiera się na znanej wariancji populacji (statystyki Z) lub na oszacowaniu z próby (statystyki T). W przypadku dwumianu błąd standardowy opiera się na proporcji (hipotetyczna proporcja dla testów).

W tabeli awaryjnej liczbę w każdej komórce można traktować jako pochodzącą z rozkładu Poissona ze średnią równą wartości oczekiwanej (poniżej wartości zerowej). Wariancja rozkładu Poissona jest równa średniej, dlatego też do obliczenia błędu standardowego używamy również wartości oczekiwanej. Widziałem statystykę, która używa obserwowanego zamiast tego, ale ma mniej teoretycznego uzasadnienia i nie jest tak zbieżna z . $\chi^2$

— Greg Snow
źródło

Utknąłem w związku z Poissonem / rozumiem, dlaczego każdą komórkę można uznać za pochodzącą z Poissona. Znam średnią / wariancję Poissons i wiem, że reprezentują one liczbę zdarzeń przy danym współczynniku. Wiem również, że rozkłady chi-kwadrat reprezentują sumę kwadratów normalnych (wariancja 1) normalnych. Usiłuję po prostu oprzeć głowę na uzasadnieniu ponownego użycia oczekiwanej wartości jako założenia „rozprzestrzeniania się” każdej z normalnych. Czy to tylko po to, aby wszystko było zgodne z rozkładem chi-kwadrat / z „standaryzacją” normalnych?

— Yang,

Jest kilka problemów, rozkład Poissona jest wspólny dla zliczeń, gdy rzeczy są dość niezależne. Zamiast myśleć o tym, że tabela ma stałą sumę, a dzielisz wartości między komórki tabeli, pomyśl o jednej komórce tabeli i czekasz przez określony czas, aby zobaczyć, ile odpowiedzi wpada do tej komórki , to pasuje do ogólnej idei Poissona. Dla dużych oznacza, że możesz aproksymować Poissona o rozkładzie normalnym, więc statystyka testowa ma sens jako normalne przybliżenie Poissona, a następnie przekształca się na

χ^{2}

$\chi^2$

— Greg Snow,

(+1) Załóżmy, że liczba komórek

były niezależnymi zmiennymi losowymi Poissona ze średnią

. Zatem z pewnością

X_{i}, \dots, X_{k}

$X_i,\ldots,X_k$

n π_{i}

$n\pi_i$

w rozkładzie. Problem polega jednak na tym, że

jestparametrem,a nie faktyczną liczbą zliczeń. Całkowite obserwowane liczby wynoszą

. Chociaż

prawie na pewno przez SLLN, należy wykonać jeszcze trochę pracy, aby zmienić heurystykę w coś wykonalnego.

\sum_{i = 1}^{k} \frac{(X_{i} - n π_{i})^{2}}{n π_{i}} \to χ_{k}^{2}

$\sum_{i=1}^k \frac{(X_i - n\pi_i)^2}{n \pi_i} \to \chi_k^2$

n

$n$

N = \sum_{i = 1}^{k} X_{i} \sim P o i (n)

$N = \sum_{i=1}^k X_i \sim \mathrm{Poi}(n)$

N / n \to 1

$N/n \to 1$

— kardynał

— Yang,

@Yang: Brzmi jak twoje dane --- których nie opisałeś --- nie są zgodne z modelem leżącym u podstaw statystyki chi-kwadrat. Standardowym modelem jest modelowanie wielomianowe . Ściśle mówiąc, nie uwzględniono nawet (bezwarunkowego) próbkowania Poissona, co zakłada odpowiedź Grega. Odnoszę się (być może tępo) do tego w poprzednim komentarzu.

— kardynał

Zajmijmy się najprostszym przypadkiem, aby zapewnić jak najwięcej intuicji. Niech będzie próbką iid z rozkładu dyskretnego z wyników. Niech będą prawdopodobieństwami każdego konkretnego wyniku. Interesuje nas (asymptotyczny) rozkład statystyki chi-kwadrat $X_1, X_2, \ldots, X_n$ $k$ $\pi_1,\ldots,\pi_k$ Tutaj jest oczekiwaną liczbą zliczeń tego wyniku.

X^{2} = \sum_{i = 1}^{k} \frac{(S_{i} - n π_{i})^{2}}{n π_{i}} .

$X^2 = \sum_{i=1}^k \frac{(S_i - n \pi_i)^2}{n\pi_i} \> .$

n π_{i}

$n \pi_i$

i

$i$

Sugestywna heurystyka

Zdefiniuj , tak że gdzie. $U_i = (S_i - n\pi_i) / \sqrt{n \pi_i}$ $X^2 = \sum_i U_i^2 = \newcommand{\U}{\mathbf{U}}\|\U\|^2_2$ $\U = (U_1,\ldots,U_k)$

Ponieważ jest , to według Twierdzenia Granicy Centralnej , $S_i$ $\mathrm{Bin}(n,\pi_i)$ Stąd też ma to, .

T_{i} = \frac{U_{i}}{\sqrt{1 - π_{i}}} = \frac{S_{i} - n π_{i}}{\sqrt{n π_{i} (1 - π_{i})}} \overset{d}{\to} N (0, 1),

$\newcommand{\convd}{\xrightarrow{d}}\newcommand{\N}{\mathcal{N}} T_i = \frac{U_i}{\sqrt{1-\pi_i}} = \frac{S_i - n \pi_i}{\sqrt{ n\pi_i(1-\pi_i)}} \convd \N(0, 1) \>,$

U_{i} \overset{d}{\to} N (0, 1 - π_{i})

$U_i \convd \N(0, 1-\pi_i)$

Teraz, jeśli były (asymptotycznie) niezależne (które nie są), to możemy twierdzić, że było asymptotycznie dystrybuowane. Należy jednak zauważyć, że jest funkcją deterministyczną a zatem zmienne nie mogą być niezależne. $T_i$ $\sum_i T_i^2$ $\chi_k^2$ $T_k$ $(T_1,\ldots,T_{k-1})$ $T_i$

Dlatego musimy w jakiś sposób uwzględnić kowariancję między nimi. Okazuje się, że „poprawny” sposób to zrobić jest użycie zamiast i kowariancja pomiędzy składnikami zmienia się także rozkład asymptotycznej od tego, co możemy mieć myśl była , co jest w rzeczywistości, a . $U_i$ $\U$ $\chi_{k}^2$ $\chi_{k-1}^2$

Kilka szczegółów na ten temat.

Bardziej rygorystyczne traktowanie

Nie jest trudno sprawdzić, czy w rzeczywistości dla. $\newcommand{\Cov}{\mathrm{Cov}}\Cov(U_i, U_j) = - \sqrt{\pi_i \pi_j}$ $i \neq j$

Zatem kowariancja wynosi $\U$ gdzie

A = I - \sqrt{π} {\sqrt{π}}^{T},

$\newcommand{\sqpi}{\sqrt{\boldsymbol{\pi}}} \newcommand{\A}{\mathbf{A}} \A = \mathbf{I} - \sqpi \sqpi^T \>,$

. Zauważ, że jest symetryczna i idempotent, czyli

. Zatem w szczególności, jeśli

ma standardowe standardowe składowe, wówczas

. (Uwaga:Rozkład normalny wielowymiarowy w tym przypadku jestzdegenerowany).

\sqrt{π} = (\sqrt{π_{1}}, \dots, \sqrt{π_{k}})

$\sqpi = (\sqrt{\pi_1}, \ldots, \sqrt{\pi_k})$

A

$\A$

A = A^{2} = A^{T}

$\A = \A^2 = \A^T$

Z = (Z_{1}, \dots, Z_{k})

$\newcommand{\Z}{\mathbf{Z}}\Z = (Z_1, \ldots, Z_k)$

A Z \sim N (0, A)

$\A \Z \sim \N(0, \A)$

Teraz, przez wielowymiarowe Centralnego twierdzenia granicznego , wektor posiada asymptotycznej wielowymiarowy rozkład normalny ze średnią i kowariancji . $\U$ $0$ $\A$

Tak więc, ma taki sam rozkład asymptotycznej jako , a więc takiego samego rozkładu asymptotyczna z jest taki sam jak rozkład przez ciągłe twierdzenia odwzorowania . $\U$ $\A \Z$ $X^2 = \U^T \U$ $\Z^T \A^T \A \Z = \Z^T \A \Z$

Ale jest symetryczny i idempotentny, więc ( a ) ma ortogonalne wektory własne, ( b ) wszystkie jego wartości własne wynoszą 0 lub 1, oraz ( c ) krotność wartości własnej 1 wynosi . Oznacza to, że można rozłożyć jak , gdzie jest ortogonalny, a jest macierzą diagonalną o te na przekątnej, a pozostałe pozycje ukośne zerowej. $\A$ $\mathrm{rank}(\A)$ $\A$ $\A = \mathbf{Q D Q}^T$ $\mathbf{Q}$ $\mathbf{D}$ $\mathrm{rank}(\A)$

$\Z^T \A \Z$ $\chi^2_{k-1}$ $\A$ $k-1$

Inne połączenia

Statystyka chi-kwadrat jest również ściśle powiązana ze statystykami współczynnika wiarygodności. Rzeczywiście, jest to statystyka wyniku Rao i może być postrzegana jako przybliżenie szeregu Taylora statystyki wskaźnika prawdopodobieństwa.

Bibliografia

To mój własny rozwój oparty na doświadczeniu, ale oczywiście pod wpływem klasycznych tekstów. Są dobre miejsca, w których można dowiedzieć się więcej

GAF Seber i AJ Lee (2003), Linear Regression Analysis , wyd. 2, Wiley.
E. Lehmann i J. Romano (2005), Testing Statistics Hypotheses , 3. wyd., Springer. W szczególności sekcja 14.3 .
DR Cox i DV Hinkley (1979), Theoretical Statistics , Chapman and Hall.

— kardynał
źródło

(+1) Myślę, że trudno jest znaleźć ten dowód w standardowych kategorycznych tekstach analizy danych, takich jak Agresti, A. (2002). Analiza danych kategorycznych. John-Wiley.

— suncoolsu

Dziękuję za komentarz. Wiem, że w Agresti istnieje pewne podejście do statystyki chi-kwadrat, ale nie przypominam sobie, jak daleko to posuwa. Może odwołać się do asymptotycznej równoważności za pomocą statystyki współczynnika prawdopodobieństwa.

— kardynał

Nie wiem, czy znajdziesz dowód powyżej w jakimkolwiek tekście. Nigdzie nie widziałem zastosowania pełnej (zdegenerowanej) macierzy kowariancji i jej właściwości. Zwykłe leczenie polega na (niedegenerowanym) rozkładzie pierwszego

k - 1

$k-1$ współrzędne, a następnie wykorzystuje odwrotną macierz kowariancji (która ma ładną formę, ale która nie jest od razu oczywista) i pewną (nieco) żmudną algebrę do ustalenia wyniku.

— kardynał

Twoja odpowiedź zaczyna się od zdefiniowania zestawu

X

$X$ ale następnie definiuje statystyki w kategoriach

S

$S$ „s. Czy możesz podać w odpowiedzi coś, co wskazuje, w jaki sposób zmienne zdefiniowane na początku i zmienne w statystyce są powiązane?

— Glen_b