Dlaczego wartości p rozkładają się równomiernie w ramach hipotezy zerowej?


115

Ostatnio znalazłem w artykule Klammera i in. stwierdzenie, że wartości p powinny być równomiernie rozłożone. Wierzę autorom, ale nie mogę zrozumieć, dlaczego tak jest.

Klammer, AA, Park, CY i Stafford Noble, W. (2009) Kalibracja statystyczna funkcji SEQUEST XCorr . Journal of Proteome Research . 8 (4): 2106–2113.


24
Wynika to bezpośrednio z definicji wartości p jako całki prawdopodobieństwa transformacji statystyki testowej z wykorzystaniem rozkładu pod hipotezą zerową. Wniosek wymaga, aby dystrybucja była ciągła. Gdy rozkład jest dyskretny (lub ma atomy), rozkład wartości p jest również dyskretny, a zatem może być w przybliżeniu równomierny.
whuber

1
@whuber udzielił odpowiedzi, którą podejrzewałem. Poprosiłem o oryginalne odniesienie, aby upewnić się, że coś nie zostało utracone w tłumaczeniu. Zwykle nie ma znaczenia, czy artykuł jest konkretny, czy nie, treść statystyczna zawsze pokazuje poprzez :)
mpiktas

10
Tylko gdy jest prawdziweH0 ! ... a ściślej, tylko gdy jest ciągły (choć coś takiego jest prawdą w przypadku nieciągłym; nie znam odpowiedniego słowa dla najbardziej ogólnego przypadku; to nie jest jednolitość). Następnie wynika z definicji wartości p.
Glen_b

2
Można to uznać za wariant podstawowej zasady mechaniki statystycznej (że uczniowie często mają podobne trudności z zaakceptowaniem), że wszystkie mikrostany układu fizycznego mają jednakowe prawdopodobieństwo.
DW

5
Co powiesz na roszczenie w tym artykule: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Odpowiedzi:


83

Wyjaśnić trochę. Wartość p rozkłada się równomiernie, gdy hipoteza zerowa jest prawdziwa i spełnione są wszystkie inne założenia. Powodem tego jest tak naprawdę definicja alfa jako prawdopodobieństwa błędu typu I. Chcemy, aby prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej było alfa, odrzucamy, gdy zaobserwowany , jedynym sposobem, w jaki dzieje się to dla dowolnej wartości alfa, jest to, gdy wartość p pochodzi z jednolitego dystrybucja. Cały sens stosowania prawidłowego rozkładu (normalny, t, f, chisq itp.) Polega na przekształceniu ze statystyki testowej w jednolitą wartość p. Jeśli hipoteza zerowa jest fałszywa, wówczas rozkład wartości p będzie (mam nadzieję) większy w stosunku do 0.p-value<α

Funkcje Pvalue.norm.simi Pvalue.binom.simw pakiecie TeachingDemos dla R symulują kilka zestawów danych, obliczają wartości p i wykreślają je, aby zademonstrować ten pomysł.

Zobacz także:

Murdoch, D, Tsai, Y i Adcock, J (2008). Wartości P są zmiennymi losowymi. The American Statistician , 62 , 242-245.

po więcej szczegółów.

Edytować:

Ponieważ ludzie wciąż czytają tę odpowiedź i komentują, pomyślałem, że odniosę się do komentarza @ whuber.

Prawdą jest, że przy zastosowaniu złożonej hipotezy zerowej, takiej jak , wartości p będą rozkładane równomiernie tylko wtedy, gdy 2 średnie są dokładnie równe i nie będą jednolite, jeśli jest dowolną wartością, która jest mniejsza niż . Można to łatwo zauważyć za pomocą funkcji i ustawienia jej na wykonanie jednostronnego testu oraz symulacji za pomocą symulacji i hipotetycznych środków różnych (ale w kierunku, aby wartość null była prawdziwa).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

Jeśli chodzi o teorię statystyczną, nie ma to znaczenia. Zastanów się, czy twierdziłem, że jestem wyższy niż każdy członek twojej rodziny, jednym ze sposobów sprawdzenia tego twierdzenia byłoby porównanie mojego wzrostu z wzrostem każdego członka twojej rodziny pojedynczo. Inną opcją byłoby znalezienie członka rodziny, który jest najwyższy, i porównanie ich wzrostu z moim. Jeśli jestem wyższy od tej jednej osoby, to jestem również wyższy od reszty i moje twierdzenie jest prawdziwe, jeśli nie jestem wyższy od tej jednej osoby, moje twierdzenie jest fałszywe. Testowanie złożonego null może być postrzegane jako podobny proces, zamiast testowania wszystkich możliwych kombinacji, w których możemy przetestować tylko część równości, ponieważ jeśli możemy odrzucić, że na korzyśćμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2wtedy wiemy, że możemy również odrzucić wszystkie możliwości . Jeśli spojrzymy na rozkład wartości p dla przypadków, w których to rozkład nie będzie idealnie jednolity, ale będzie miał więcej wartości bliższych 1 niż 0, co oznacza, że ​​prawdopodobieństwo błędu typu I będzie mniejsze niż wybrana wartość czyni ją testem zachowawczym. Mundur staje się rozkładem granicznym, gdy zbliża się doμ1<μ2μ1<μ2αμ1μ2(ludzie, którzy są bardziej aktualni w kategoriach statystyki statystycznej, prawdopodobnie mogliby to stwierdzić lepiej, jeśli chodzi o supremum dystrybucyjne lub coś w tym rodzaju). Konstruując nasz test, zakładając równą część wartości zerowej, nawet gdy wartość zerowa jest złożona, projektujemy nasz test, aby prawdopodobieństwo wystąpienia błędu typu I było co najwyżej w każdych warunkach, w których wartość null jest prawdziwa.α


Przepraszam za literówkę, którą przedstawiłem (powinienem przeczytać \leqw TeX)!
chl

1
Artykuł „Wartości P są zmiennymi losowymi” jest naprawdę interesujący, czy jest jakaś książka wprowadzająca, która przestrzega zasad określonych w tym artykule?
Alessandro Jacopson

8
Mimo komentarza, który zamieściłem na pytanie, zdałem sobie sprawę, że wniosek nie jest prawdziwy, z wyjątkiem szczególnych przypadków. Problem występuje w przypadku złożonych hipotez, takich jak . „Hipoteza zerowa jest prawdziwa” obejmuje teraz wiele możliwości, takich jak przypadek . W takim przypadku wartości p nie będą równomiernie rozłożone. Podejrzewam, że można wytworzyć (nieco sztuczne) sytuacje, w których bez względu na element hipotezy zerowej rozkład wartości p nigdy nie byłby w pobliżu równomierny. μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber

1
@Greg Snow: Myślę, że rozkład wartości p nie zawsze jest jednolity, jest jednakowy, gdy są obliczane z rozkładu ciągłego, ale nie, gdy są obliczane z rozkładu dyskretnego

1
Rozszerzyłem odpowiedź powyżej, aby uwzględnić komentarz @whuber.
Greg Snow,

26

Zgodnie z hipotezą zerową, twoja statystyka testowa ma rozkład (np. Standardowa normalna). Pokazujemy, że wartość p ma rozkład prawdopodobieństwa innymi słowy, jest rozłożone równomiernie. Dzieje się tak, dopóki jest odwracalny, a niezbędnym warunkiem jest to, że nie jest dyskretną zmienną losową.TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

Ten wynik jest ogólny: rozkład odwracalnego CDF zmiennej losowej jest równomierny dla .[0,1]


8
możesz przeformułować swój ostatni komentarz, co jest nieco mylące. Ciągłe CDF niekoniecznie mają (właściwą) odwrotność. (Czy możesz pomyśleć o kontrprzykładzie?) Więc twój dowód wymaga dodatkowych warunków. Standardowym sposobem obejścia tego jest zdefiniowanie pseudoinwersji . Argument staje się również bardziej subtelny. F(y)=inf{x:F(x)y}
kardynał

1
Informacje na temat pracy z uogólnionymi odwrotnościami można znaleźć na stronie link.springer.com/article/10.1007%2Fs00186-013-0436-7 (w szczególności F (T) jest jednolity tylko wtedy, gdy F jest ciągły - nie ma znaczenia, czy F jest odwracalny, czy nie). Jeśli chodzi o twoją definicję wartości p: nie sądzę, że zawsze jest to „F (T)”. Jest to prawdopodobieństwo (poniżej zera) przyjęcia wartości bardziej ekstremalnej niż obserwowana, więc może to być również funkcja przeżycia (żeby być precyzyjnym tutaj).
Marius Hofert

Czy jest CDF? F(t)
zyxue

@zyxue Tak, plik cdf jest czasem nazywany „dystrybucją”.
mikario

6

Niech oznacza zmienną losową z funkcją rozkładu skumulowanego dla wszystkich . Zakładając, że jest odwracalna, możemy wyprowadzić rozkład losowej wartości w następujący sposób:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

z którego możemy wnioskować, że rozkład jest równomierny na .P[0,1]

Ta odpowiedź jest podobna do odpowiedzi Charliego, ale unika konieczności definiowania .t=F1(p)


Jak zdefiniowałeś F, czy P = F (T) = Pr (T <T) = 0?
TrynnaDoStat

Nie do końca „syntaktyczna zamiana” jest nieco myląca. Formalnie rzecz biorąc, jest zmienną losową zdefiniowaną przezF(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

Prosta symulacja rozkładu wartości p w przypadku regresji liniowej między dwiema zmiennymi niezależnymi:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

7
Czy mógłbyś wyjaśnić, w jaki sposób odpowiada to pytanie? Chociaż jego wyniki ilustrują szczególny przypadek tego stwierdzenia, żadna ilość kodu nie byłaby w stanie odpowiedzieć na pytanie, dlaczego ? To wymaga dodatkowych wyjaśnień.
whuber

-1

Nie sądzę, że większość z tych odpowiedzi w ogóle odpowiada na pytanie. Są one ograniczone do przypadku, gdy istnieje prosta hipoteza zerowa i gdy statystyka testowa ma odwracalny CDF (jak w ciągłej zmiennej losowej, która ma ściśle rosnący CDF). Te przypadki są przypadkami, którymi większość ludzi się przejmuje testem Z i testem t, chociaż do testowania średniej dwumianowej (na przykład) nie ma takiego CDF. To, co podano powyżej, wydaje mi się słuszne w tych ograniczonych przypadkach.

Jeśli hipotezy zerowe są złożone, rzeczy są nieco bardziej skomplikowane. Najbardziej ogólny dowód tego faktu, jaki widziałem w złożonej sprawie przy użyciu pewnych założeń dotyczących regionów odrzucenia, znajduje się w „Testing Statisitical Hypotheses” Lehmanna i Romano, str. 63-64. Spróbuję odtworzyć poniższy argument ...

Testujemy hipotezy zerowej kontra alternatywnej hipotezy oparciu o statystykę testową, którą będziemy oznaczać jako zmiennej losowej . Zakłada się, że statystyki testowe pochodzą z pewnej klasy parametrycznej, tj. , gdzie jest elementem rodziny rozkładów prawdopodobieństwa , a to przestrzeń parametrów. Hipoteza i hipoteza alternatywna tworzą partycję w tym H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
gdzie
Θ0Θ1=.

Wynik testu może być oznaczony gdzie dla dowolnego zestawu definiujemy Tutaj jest naszym poziomem istotności, a oznacza region odrzucenia testu dla poziomu istotności .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Załóżmy, że regiony odrzucające spełniają jeśli . W tym przypadku zagnieżdżonych regionów odrzucania przydatne jest określenie nie tylko tego, czy hipoteza zerowa jest odrzucana na danym poziomie istotności , ale także określenie najmniejszego poziomu istotności, dla którego hipoteza zerowa zostałaby odrzucona. Ten poziom jest znany jako wartość p , ta liczba daje nam wyobrażenie o jak silne dane (przedstawione przez statystykę testową ) są sprzeczne z hipotezą zerową .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Załóżmy, że dla niektórych i że . Załóżmy dodatkowo, że regiony odrzucające zgodne z powyższą właściwością zagnieżdżania. Następnie następujące pozycje:XPθθΘH0:θΘ0Rα

  1. Jeśli dla wszystkich , to dla , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Jeśli dla mamy dla wszystkich , to dla mamy θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Zauważ, że ta pierwsza właściwość mówi nam tylko, że współczynnik fałszywie dodatnich jest kontrolowany , odrzucając, gdy wartość p jest mniejsza niż , a druga właściwość mówi nam (przy dodatkowym założeniu), że wartości p są równomiernie rozmieszczone pod wartością zerową hipoteza.uu

Dowód jest następujący:

  1. Niech i załóżmy dla wszystkich . Następnie z definicji mamy dla wszystkich . Z monotoniczności i założenia wynika, że dla wszystkich . Pozwalając , wynika z tego, że .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Niech i załóżmy, że dla wszystkich . Następnie , a przez monotoniczność wynika, że . Biorąc pod uwagę (1), wynika z tego, że . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Zauważ, że założenie w (2) nie obowiązuje, gdy statystyka testowa jest dyskretna, nawet jeśli hipoteza zerowa jest prosta, a nie złożona. Weźmy na przykład z i . Tzn. Rzuć monetą dziesięć razy i sprawdź, czy jest sprawiedliwa w stosunku do stronniczości (zakodowana jako 1). Prawdopodobieństwo zobaczenia 10 głów w 10 uczciwych rzutach monetą wynosi (1/2) ^ 10 = 1/1024. Prawdopodobieństwo zobaczenia 9 lub 10 głów w 10 uczciwych rzutach monetą wynosi 11/1024. Dla każdego ściśle między 1/1024 a 11/1024 odrzuciłbyś null, jeśli , ale nie mamy tego dla tych wartości kiedyXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Zamiast tego dla takiego . Pr(XRα)=1/1024α


Należy wyjaśnić, że ogólność podana w Lehmann i Romano dotyczy regionów odrzucających ogólnie. Nadal masz tylko „prawidłowe” wartości p dla złożonych wartości zerowych i nieciągłych statystyk testowych.
Adam

-12

Jeśli wartości p są równomiernie rozłożone w ramach H0, oznacza to, że równie prawdopodobne jest zobaczenie wartości p 0,05 jako wartości p 0,80, ale nie jest to prawdą, ponieważ rzadziej obserwuje się wartość p- wartość 0,05 niż wartość p 0,80, ponieważ jest to dokładnie definicja rozkładu normalnego, z którego wzięta jest wartość p. Z definicji będzie więcej próbek mieszczących się w zakresie normalności niż poza nim. Dlatego bardziej prawdopodobne jest znalezienie większych wartości p niż mniejszych.


3
-1. To jest całkowicie błędne. Zastanawiam się, kto to głosował. Wartości P w punkcie H0 są równomiernie rozłożone.
ameba

1
-1. Nie ma to nawet sensu, by zostać nazwanym błędnym: „zakres normalności” jest bez znaczenia, a wartości p z natury nie mają w ogóle nic wspólnego z normalnymi rozkładami.
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.