Dlaczego rozkład prawdopodobieństwa rozkłada się chi-kwadrat?

Dlaczego statystyki testu testu prawdopodobieństwa rozkładają chi-kwadrat?

$2(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}$

distributions chi-squared likelihood-ratio

— Dr Beeblebrox
źródło

Czy to pomaga ?

— Nick Sabbe,

Dzięki za referencje. Oto jeden ode mnie: stats.stackexchange.com/faq#etiquette

— Dr. Beeblebrox

Zwróć uwagę na „Wprowadź swoje poczucie humoru”. Nie chciałem być niegrzeczny, ale odpowiedź na to pytanie byłaby stosunkowo nużąca i polegałaby zasadniczo na treści tego artykułu (lub niektórych lepszych podręczników statystycznych). Jeśli podasz dokładny problem z wyjaśnieniem w jednym z nich, chętnie Ci pomogę.

— Nick Sabbe,

Bezpośredni link do oryginalnej pracy Wilksa bez zapory.

— ayorgo

Odpowiedzi:

Jak wspomniał @Nick, jest to konsekwencja twierdzenia Wilksa . Należy jednak pamiętać, że statystyki testowe są asymptotycznie dystrybuowane , a nie . $\chi^2$ $\chi^2$

Jestem pod wielkim wrażeniem tego twierdzenia, ponieważ ma ono bardzo szeroki kontekst. Rozważmy model statystyczny z prawdopodobieństwa gdzie jest obserwacje wektor niezależnych obserwacji repliką rozkładu o parametr należące do podrozmaitością o o wymiarach . Niech będzie podfolderem o wymiarze . Wyobraź sobie, że jesteś zainteresowany testowaniem . $l(\theta \mid y)$ $y$ $n$ $\theta$ $B_1$ $\mathbb{R}^d$ $\dim(B_1)=s$ $B_0 \subset B_1$ $\dim(B_0)=m$ $H_0\colon\{\theta \in B_0\}$

Współczynnik prawdopodobieństwa wynosi Zdefiniuj odchylenie . Następnie twierdzenie Wilksa mówi, że przy zwykłych założeniach regularności, jest asymptotycznie -podzielone z stopni swobody, gdy jest prawdziwe.

l r (y) = \frac{\underset{θ \in b_{1}}{łyk} l (θ ∣ y)}{\underset{θ \in b_{0}}{łyk} l (θ ∣ y)} .

$lr(y) = \frac{\sup_{\theta \in B_1}l(\theta \mid y)}{\sup_{\theta \in B_0}l(\theta \mid y)}.$

d (y) = 2 \log (l r (y))

$d(y)=2 \log \big(lr(y)\big)$

d (y)

$d(y)$

χ^{2}

$\chi^2$

s - m

$s-m$

H_{0}

$H_0$

Jest to udowodnione w oryginalnym artykule Wilka wspomnianym przez @Nick. Myślę, że ten artykuł nie jest łatwy do odczytania. Wilks opublikował książkę później, być może z najłatwiejszą prezentacją swojego twierdzenia. Krótki heurystyczny dowód znajduje się w doskonałej książce Williamsa .

— Stéphane Laurent
źródło

Smutne, że to twierdzenie nie jest wspomniane na stronie wikipedii poświęconej Samuelowi S. Wilksowi

— Stéphane Laurent

Och, chodź Stephane. To jest Wikipedia, możesz ją edytować i ulepszać!

— StasK

@StasK Wiem o tym, ale nigdy nie próbowałem. I już spędzam zbyt dużo czasu w swoim życiu ze statystykami i matematyką;)

— Stéphane Laurent

Czy istnieje intuicja, dlaczego 2 znajduje się przed logiem w definicji dewiacji?

— user56834

@ Programmer2134 Pochodzi z rozszerzenia Taylor drugiego rzędu.

— Frank Vel,

Popieram ostry komentarz Nicka Sabbe, a moja krótka odpowiedź brzmi: nie jest . Mam na myśli, że jest to tylko normalny model liniowy. W absolutnie innych okolicznościach dokładny rozkład nie jest . W wielu sytuacjach można mieć nadzieję, że warunki twierdzenia Wilksa zostaną spełnione, a następnie asymptotycznie statystyki testu logarytmicznego prawdopodobieństwa zbiegną się w rozkładzie do . Ograniczenia i naruszenia warunków twierdzenia Wilksa są zbyt liczne, aby je zlekceważyć. $\chi^2$ $\chi^2$

Twierdzenie zakłada, że dane identyfikacyjne oczekują problemów z danymi zależnymi, takimi jak szeregi czasowe lub próby nierównego badania prawdopodobieństwa (dla których i tak prawdopodobieństwo jest słabo określone; „regularne” testy , takie jak testy niezależności w tabelach awaryjnych, zaczynają się zachowywać jako suma ( Rao i Scott ). dla danych IID , a suma zostaje . a niesprawnymi danych, to nie jest już tak. $\Rightarrow$ $\chi^2$ $\sum_k a_k v_k, v_k \sim \mbox{i.i.d.} \chi^2_1$ $a_k=1$ $\chi^2$
Twierdzenie zakłada, że prawdziwy parametr znajduje się we wnętrzu przestrzeni parametrów. Jeśli masz przestrzeń euklidesową do pracy, to nie jest problem. Jednak w niektórych problemach mogą pojawić się naturalne ograniczenia, takie jak wariancja 0 lub korelacja między -1 a 1. Jeśli prawdziwy parametr to granica, to rozkład asymptotyczny jest mieszaniną o różnych stopniach wolności, w tym sensie, że cdf testu jest sumą takich cdfs ( Andrews 2001 , plus dwa lub trzy kolejne jego artykuły z tego samego okresu, z historią sięgającą Chernoffa 1954 ). $\ge$ $\chi^2$
Twierdzenie zakłada, że wszystkie odpowiednie pochodne są niezerowe. Można to zakwestionować za pomocą niektórych nieliniowych problemów i / lub parametryzacji i / lub sytuacji, gdy parametr nie jest zidentyfikowany pod wartością zerową. Załóżmy, że masz model mieszanki Gaussa, a twoja null jest jednym składnikiem vs. alternatywa dwóch różnych składników z frakcją mieszającą . Null najwyraźniej jest zagnieżdżony alternatywnie, ale można to wyrazić na różne sposoby: jako (w którym to przypadku parametry nie są identyfikowane), (w którym to przypadku $N(\mu_0,\sigma^2_0)$ $f N(\mu_1,\sigma_1^2) + (1-f) N(\mu_2,\sigma_2^2)$ $f$ $f=0$ $\mu_1,\sigma_1^2$ $f=1$ $\mu_2, \sigma_2^2$ nie są zidentyfikowane) lub (w którym to przypadku nie zostanie zidentyfikowany). Nie możesz nawet powiedzieć, ile stopni swobody powinien mieć test, ponieważ masz różną liczbę ograniczeń w zależności od tego, jak sparametryzujesz zagnieżdżanie. Zobacz pracę Jiahua Chena na ten temat, np. CJS 2001 . $\mu_1=\mu_2, \sigma_1=\sigma_2$ $f$
może działać OK, jeśli dystrybucja została poprawnie określona. Ale gdyby tak nie było, test znów się zepsuje. W podobszarze (w dużej mierze zaniedbanym przez statystyków) analizy wielowymiarowej znanej jako modelowanie kowariancji równania strukturalnego często zakłada się wielowymiarowy rozkład normalny, ale nawet jeśli struktura jest poprawna, test będzie źle działał, jeśli rozkład będzie inny. Satorra i Bentler 1995 pokazują, że dystrybucja stanie się , ta sama historia jak w przypadku danych niezależnych w punkcie 1, ale pokazali również, w jaki sposób y zależy od struktury modelu i czwartego momentów rozkładu. $\chi^2$ $\sum_k a_k v_k, v_k \sim \mbox{i.i.d.} \chi^2_1$ $a_k$
W przypadku próbek skończonych w dużej klasie sytuacji współczynnik prawdopodobieństwa jest korygowany przez Bartletta : podczas gdy dla próbka o wielkości , a będąca funkcją rozkładu ${\rm Prob}[d(y) \le x]=F(x;\chi^2_d)[1+O(n^{-1})]$ $n$ $F(x;\chi^2_d)$ $\chi^2_d$ rozkład, dla problemów z regularnym prawdopodobieństwem można znaleźć stałą taką, że , tj. Z większą dokładnością. Więc $b$ ${\rm Prob}[d(y)/(1+b/n) \le x]=F(x;\chi^2_d)[1+O(n^{-2})]$ $\chi^2$ aproksymację dla próbek skończonych można poprawić (i prawdopodobnie należy poprawić, jeśli wiesz jak). Stała zależy od struktury modelu, a czasem od parametrów pomocniczych, ale jeśli można ją konsekwentnie oszacować, działa to również w celu poprawy kolejności pokrycia. $b$

Przegląd tych i podobnych zagadnień ezoterycznych na podstawie wnioskowania o prawdopodobieństwie znajduje się w Smith 1989 .

— StasK
źródło

Dzięki! Bardzo pouczające. Co rozumiesz przez „to tylko w normalnym modelu liniowym” ? W przypadku testu Fishera, gdy

są podprzestrzeniami liniowymi, dewiacja jest funkcją monotoniczną statystyki Fishera i jest tylko asymptotycznie

B_{0}

$B_0$

B_{1}

$B_1$

χ^{2}

$\chi^2$

— Stéphane Laurent,

Ze znaną wariancją powinienem dodać.

— StasK