Nie ma to jak odpowiedzenie na naprawdę stare pytanie, ale oto idzie ...
Wartości p są prawie prawidłowymi testami hipotez. Jest to nieco zaadaptowane ćwiczenie zaczerpnięte z książki teorii prawdopodobieństwa Jaynesa z 2003 r. (Eksperymenty powtarzalne: prawdopodobieństwo i częstotliwość). Załóżmy, że mamy hipotezę zerową , którą chcemy przetestować. Mamy danych i wcześniejsza informacja . Załóżmy, że istnieje jakaś nieokreślona hipoteza , na której przetestujemy . iloraz szans dla względem jest następnie podawany przez: D I H A H 0 H A H 0H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Teraz pierwszy termin po prawej stronie jest niezależny od danych, więc dane mogą wpływać na wynik tylko za pośrednictwem drugiego terminu. Teraz możemy zawsze wymyślić alternatywną hipotezę taką, że - hipoteza „idealnego dopasowania”. Dlatego możemy użyć jako miary tego, jak dobrze dane mogą wspierać każdą alternatywną hipotezę o wartości zerowej. Nie ma alternatywnej hipotezy, że dane mogłyby obsłużyć ponad o więcej niż . Możemy również ograniczyć klasę alternatyw, a zmiana polega na tym, że jest zastępowane przez zmaksymalizowane prawdopodobieństwo (w tym stałe normalizujące) w tej klasie. JeżeliHAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)zaczyna być za mały, wtedy zaczynamy wątpić w zero, ponieważ liczba alternatyw między i rośnie (w tym niektóre z nieistotnymi wcześniejszymi prawdopodobieństwami). Jest to jednak prawie to, co dzieje się z wartościami p, ale z jednym wyjątkiem: nie obliczamy prawdopodobieństwa dla dla niektórych statystyk i jakiegoś „złego” obszaru statystyki. Obliczamy prawdopodobieństwo dla - informacje, które faktycznie mamy, a nie jakiś ich podzbiór, .H0HAt(D)>t0t(D)Dt(D)
Innym powodem, dla którego ludzie używają wartości p, jest to, że często sprowadzają się one do „właściwego” testu hipotezy, ale mogą być łatwiejsze do obliczenia. Możemy to pokazać na bardzo prostym przykładzie testowania normalnej średniej ze znaną wariancją. Mamy dane z założonym modelem (część wcześniejszych informacji ). Chcemy przetestować . Następnie, po drobnych obliczeniach:D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Gdzie i . To pokazuje, że maksymalna wartość zostanie osiągnięta, gdy . Maksymalna wartość to:x¯¯¯=1N∑Ni=1xis2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Przyjmujemy więc stosunek tych dwóch i otrzymujemy:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Gdzie jest „statystyką Z”. Duże wartościpoddaje w wątpliwość hipotezę zerową w stosunku do hipotezy o normalnej średniej, która jest najmocniej poparta danymi. Widzimy również, że jest jedyną potrzebną częścią danych, a zatem jest wystarczającą statystyką do testu.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
Podejście wartości p do tego problemu jest prawie takie samo, ale odwrotnie. Zaczynamy od wystarczającej statystyki i obliczamy jej rozkład próbkowania, który łatwo można pokazać jako - gdzie użyłem dużej litery do odróżnienia zmiennej losowej od wartości obserwowanej . Teraz musimy znaleźć region, który poddaje w wątpliwość hipotezę zerową: łatwo zauważyć, że są to regiony, w którychjest wielki. Możemy więc obliczyć prawdopodobieństwo, żex¯¯¯X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|jako miarę oddalenia obserwowanych danych od hipotezy zerowej. Tak jak poprzednio, jest to proste obliczenie i otrzymujemy:
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Teraz widzimy, że wartość p jest monotoniczną funkcją malejącą, co oznacza, że zasadniczo otrzymujemy tę samą odpowiedź, co „właściwy” test hipotez. Odrzucenie, gdy wartość p jest poniżej pewnego progu, jest tym samym, co odrzucenie, gdy szanse na później są powyżej pewnego progu. Zauważ jednak, że wykonując właściwy test, musieliśmy zdefiniować klasę alternatyw i musieliśmy zmaksymalizować prawdopodobieństwo w stosunku do tej klasy. Dla wartości p musimy znaleźć statystykę, obliczyć jej rozkład próbkowania i oszacować ją na podstawie obserwowanej wartości. W pewnym sensie wybór statystyki jest równoznaczny ze zdefiniowaniem alternatywnej hipotezy, którą rozważasz.|z|
Chociaż w tym przykładzie obie są łatwe do zrobienia, nie zawsze są tak łatwe w bardziej skomplikowanych przypadkach. W niektórych przypadkach może być łatwiej wybrać odpowiednią statystykę i obliczyć jej rozkład próbkowania. W innych może być łatwiej zdefiniować klasę alternatyw i zmaksymalizować w stosunku do tej klasy.
Ten prosty przykład uwzględnia dużą liczbę testów opartych na wartości p, po prostu dlatego, że tak wiele testów hipotez ma odmianę „w przybliżeniu normalną”. Zapewnia również przybliżoną odpowiedź na problem z monetami (przy użyciu normalnego przybliżenia do dwumianu). Pokazuje również, że wartości p w tym przypadku nie doprowadzą cię na manowce, przynajmniej w zakresie testowania pojedynczej hipotezy. W tym przypadku możemy powiedzieć, że wartość p jest miarą dowodów przeciwko hipotezie zerowej.
Jednak wartości p mają mniej interpretowalną skalę niż współczynnik Bayesa - związek między wartością p a „ilością” dowodów w odniesieniu do wartości zerowej jest złożony. Wartości p stają się zbyt małe zbyt szybko - co utrudnia ich prawidłowe użycie. Zazwyczaj przeceniają wsparcie w stosunku do wartości zerowej dostarczonej przez dane. Jeśli interpretujemy wartości p jako prawdopodobieństwa zerowe - w kursie wynosi , gdy faktyczny dowód wynosi , a w kursie wynosi gdy faktyczny dowód wynosi . Innymi słowy, użycie wartości p jako prawdopodobieństwa, że wartość null jest fałszywa, jest równoznaczne z ustawieniem wcześniejszych szans. Tak więc dla wartości p0.193.870.05196.830.1implikowane wcześniejsze szanse przeciw zeru wynoszą a dla wartości p implikowane wcześniejsze szanse przeciw zeru wynoszą .2.330.052.78