Jeśli rozkład statystyki testowej jest bimodalny, to czy wartość p coś znaczy?

Wartość p określa się jako prawdopodobieństwo uzyskania statystyki testowej co najmniej tak ekstremalnej, jak to, co obserwuje się, przy założeniu, że hipoteza zerowa jest prawdziwa. Innymi słowy,

P (X \geq t | H_{0})

$P( X \ge t | H_0 )$ Ale co, jeśli statystyka testowa ma rozkład bimodalny? czy wartość p oznacza coś w tym kontekście? Na przykład zamierzam zasymulować niektóre dane bimodalne w R:

set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

wprowadź opis zdjęcia tutaj

Załóżmy, że obserwujemy wartość statystyki testowej 60. I tutaj wiemy z obrazu, że ta wartość jest bardzo mało prawdopodobna . Idealnie więc chciałbym, aby ujawnić to procedurę statystyczną, której używam (powiedzmy wartość p). Ale jeśli obliczymy wartość p zdefiniowaną, otrzymamy całkiem wysoką wartość p

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Gdybym nie znał rozkładu, doszłbym do wniosku, że to, co zaobserwowałem, jest po prostu przypadkiem. Ale wiemy, że to nieprawda.

Wydaje mi się, że moje pytanie brzmi: dlaczego obliczając wartość p, obliczamy prawdopodobieństwo dla wartości „co najmniej tak ekstremalnych jak” obserwowanych? A jeśli napotkam sytuację taką jak ta, którą symulowałem powyżej, jakie jest alternatywne rozwiązanie?

— Alby
źródło

Witamy w cudownym świecie testowania znaczenia hipotezy zerowej! Poważnie: Szczerze mówiąc, nie mogę wymyślić statystyki testowej, która ma rozkład bimodalny pod hipotezą zerową (tą, na której nam zależy w NHST). Więc +1 za interesujące pytanie, ale wątpię w jego praktyczne znaczenie ... chyba że masz na myśli konkretny przykład?

— Stephan Kolassa

Zgadzam się z @StephanKolassa; Z pewnością istnieją dystrybucje danych , które mają dwumodalny, ale jakie statystyczny badania jest?

— Peter Flom - Przywróć Monikę

Nie zgodziłbym się z charakterystyką wartości p sugerowaną przez pierwszą formułę. Prawidłowe poczucie „przynajmniej tak ekstremalnego” w teorii Neymana-Pearsona dotyczy względnego prawdopodobieństwa, a nie zwykłego uporządkowania liczb rzeczywistych (jak wskazano we wzorze). Oba są równoważne w wielu standardowych sytuacjach testowych, ale różnią się gwałtownie, gdy rozkład próbkowania jest bimodalny. To rozróżnienie rozwiąże zatem pytanie zadowalająco, jak sądzę.

— whuber

@whuber Czy mógłbyś trochę rozwinąć tę kwestię, może z prostym przykładem?

— Szabolcs

@Szabolcs Niech będzie rozkładem Beta a dla niech będzie równą mieszaniną i ( ). Plik PDF z jest jednolity, natomiast plik PDF, powiedzmy, jest dwumodalny z pikami o . Załóżmy, że . Region odrzucenia testu LR dla vs składa się z dwóch przedziałów daleko od skrajności jeden około

G_{θ}

$G_\theta$

(θ, θ)

$(\theta,\theta)$

θ \geq 1

$\theta\ge 1$

F_{θ} (x)

$F_\theta(x)$

G_{θ} (x)

$G_\theta(x)$

G_{θ} (- x)

$G_\theta(-x)$

x \in [- 1, 1]

$x \in [-1,1]$

F_{1}

$F_1$

F_{2}

$F_2$

\pm 1 / 2

$\pm 1/2$

X \sim F_{θ}

$X\sim F_\theta$

H_{0} : X \sim F_{1}

$H_0: X\sim F_1$

H_{A} : X \sim F_{2}

$H_A: X\sim F_2$

\pm 1

$\pm 1$

1 / 2

$1/2$ a druga około - ponieważ dowody na są tam najsilniejsze.

- 1 / 2

$-1/2$

θ = 2

$\theta=2$

— whuber

To, co sprawia, że statystyka testowa jest „ekstremalna”, zależy od twojej alternatywy, która narzuca porządek (lub przynajmniej częściowy porządek) na przestrzeni próbki - starasz się odrzucić te przypadki najbardziej spójne (w tym sensie mierzone przez statystyki testowe) z alternatywa.

Kiedy tak naprawdę nie masz alternatywy, aby dać ci coś, z czym możesz być najbardziej konsekwentny, zasadniczo masz szansę na uporządkowanie, najczęściej widoczne w dokładnym teście Fishera. Tam prawdopodobieństwo wyników (tablice 2x2) poniżej wartości zerowej porządkuje statystykę testową (tak, że „ekstremalne” to „małe prawdopodobieństwo”).

Jeśli byłeś w sytuacji, w której skrajna lewa (lub skrajna prawa, lub obie) twój dwumodalny rozkład zerowy był związany z alternatywą, którą jesteś zainteresowany, nie próbowałbyś odrzucić statystyki testowej 60. Ale jeśli znajdujesz się w sytuacji, w której nie masz takiej alternatywy, wówczas 60 jest nietypowe - ma małe prawdopodobieństwo; wartość 60 jest niezgodna z modelem i doprowadziłaby do odrzucenia.

[Niektórzy postrzegają to jako jedną zasadniczą różnicę między testowaniem hipotez Fisheriana i Neymana-Pearsona. Wprowadzając wyraźną alternatywę i stosunek prawdopodobieństw, niskie prawdopodobieństwo poniżej zera niekoniecznie spowoduje, że odrzucisz w ramach Neymana-Pearsona (o ile działa stosunkowo dobrze w porównaniu z alternatywą), podczas gdy dla Fishera tak naprawdę nie masz alternatywy, a prawdopodobieństwo poniżej zera jest tym, czym jesteś zainteresowany.]

Nie sugeruję, że którekolwiek podejście jest tutaj dobre lub złe - idź sam i przekonaj się, z jakimi alternatywami szukasz siły, niezależnie od tego, czy jest to konkretne, czy po prostu coś, co jest mało prawdopodobne pod zerową wartością. Kiedy już wiesz, czego chcesz, reszta (w tym co oznacza „przynajmniej tak ekstremalne”) prawie z tego wynika.

— Glen_b - Przywróć Monikę
źródło