Interpretacja wartości p w testowaniu hipotez


36

Niedawno natknąłem się na artykuł „Nieistotność zerowego testowania istotności hipotezy”, Jeff Gill (1999) . Autor podniósł kilka typowych nieporozumień dotyczących testowania hipotez i wartości p, na które mam dwa konkretne pytania:

  1. Wartość p jest technicznie P(observation|H0) , co, jak wskazano w pracy, zasadniczo nie mówi nam nic o P(H0|observation), chyba że znamy rozkłady krańcowe, co rzadko zdarza się w „codziennych” testach hipotez. Kiedy otrzymujemy małą wartość p i „odrzucamy hipotezę zerową”, jakie dokładnie jest to stwierdzenie probabilistyczne, ponieważ nie możemy nic powiedzieć o ?P(H0|observation)
  2. Drugie pytanie dotyczy konkretnego stwierdzenia ze strony 6 (652) artykułu:

Ponieważ wartość p lub zakres wartości p wskazany przez gwiazdy nie jest z góry ustalany, nie jest to długookresowe prawdopodobieństwo popełnienia błędu typu I, ale zwykle jest traktowane jako takie.

Czy ktoś może pomóc wyjaśnić, co należy rozumieć przez to oświadczenie?


TY za odniesienie do artykułu
Ludovic Kuty

@ezbentley: może warto wziąć Llok na moją odpowiedź: stats.stackexchange.com/questions/166323/…

Odpowiedzi:


33

(Technicznie wartość P jest prawdopodobieństwem zaobserwowania danych przynajmniej tak ekstremalnie, jak faktycznie zaobserwowano, biorąc pod uwagę hipotezę zerową.)

Pytanie 1 Decyzja o odrzuceniu hipotezy zerowej na podstawie małej wartości P zazwyczaj zależy od „rozłączenia Fishera”: zdarzyło się rzadkie zdarzenie lub hipoteza zerowa jest fałszywa. W efekcie to rzadkość zdarzenia jest tym, co mówi Ci wartość P, a nie prawdopodobieństwo, że wartość null jest fałszywa.

Prawdopodobieństwo, że wartość zerowa jest fałszywa, można uzyskać z danych eksperymentalnych jedynie na podstawie twierdzenia Bayesa, które wymaga określenia „wcześniejszego” prawdopodobieństwa hipotezy zerowej (przypuszczalnie to, co Gill nazywa „rozkładem krańcowym”).

Q2 Ta część twojego pytania jest o wiele trudniejsza, niż mogłoby się to wydawać. Istnieje wiele nieporozumień dotyczących wartości P i poziomów błędów, które prawdopodobnie mają na myśli Gill, ale „zwykle są traktowane jako takie”. Połączenie Fisheryjskich wartości P z poziomami błędu Neymana-Pearsona nazwano niespójnym miszmaszem i jest niestety bardzo rozpowszechniony. Żadna krótka odpowiedź nie będzie tutaj w zupełności wystarczająca, ale mogę wskazać kilka dobrych dokumentów (tak, jeden jest mój). Oba pomogą ci zrozumieć papier Gill.

Hurlbert, S. i Lombardi, C. (2009). Ostateczne załamanie się ram teoretycznych decyzji Neymana-Pearsona i powstanie neoFisherii. Annales Zoologici Fennici, 46 (5), 311–349. (Link do papieru)

Lew, MJ (2012). Zła praktyka statystyczna w farmakologii (i innych podstawowych dyscyplinach biomedycznych): prawdopodobnie nie znasz P. British Journal of Pharmacology, 166 (5), 1559–1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Link do papieru)


Dziękuję za wyjaśnienie. Czy złożenie takiego oświadczenia jest technicznie nieprawidłowe "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? Źródłem zamieszania wydaje się być to, że nie wysuwa się żadnego prawdziwego twierdzenia probabilistycznego w odniesieniu do hipotezy zerowej, gdy mówimy, że zerowa jest „odrzucona”.

2
@ezbentley, to naprawdę zależy od tego, co masz na myśli przez znaczące. To słowo nie ma większego znaczenia w większości kontekstów, ponieważ zostało zanieczyszczone przez hybrydę Fisher-Neyman-Pearson. Jeśli uzyskano bardzo małą wartość P, to można uczciwie powiedzieć, że prawdziwa średnia prawdopodobnie nie jest równa zero, ale ważne jest, aby powiedzieć, jaka była obserwowana średnia, i wskazać jej zmienność (SEM lub przedział ufności), i nie zapomnij powiedzieć, jaki był rozmiar próbki. Wartość P nie zastępuje specyfikacji obserwowanego rozmiaru efektu.
Michael Lew

Dziękuję za wyjaśnienie. Muszę wniknąć głębiej w paradygmat Fishera i Neymana-Pearsona.

@Michael Lew: Może warto spojrzeć na moją odpowiedź: stats.stackexchange.com/questions/166323/...

Twój akapit w Q1 jest prawdopodobnie najlepszym wyjaśnieniem problemu, jaki do tej pory widziałem. Dziękuję Ci.
Maxim.K

22

+1 do @MichaelLew, który udzielił dobrej odpowiedzi. Być może nadal mogę przyczynić się, zapewniając sposób myślenia o Q2. Rozważ następującą sytuację:

  • Hipoteza zerowa jest prawdziwa. (Należy zauważyć, że jeśli hipoteza zerowa nie jest prawdziwa, nie są możliwe błędy typu I i nie jest jasne, jakie znaczenie ma wartość ). p
  • ustalono konwencjonalnie na 0,05 . α0.05
  • Obliczona wartość wynosi 0,01 . p0.01

pp0.02p0.049¯pα

p


1
Pracując na polu (epi), w którym często niezwykle trudno jest uwierzyć, że hipoteza H_0 = 0 jest rzeczywiście prawdziwa, myślę, że ten punkt jest przeoczony i zasługuje na znacznie więcej uwagi.
boscovich

1
Żeby upewnić się, że moje rozumowanie jest prawidłowe. Sama wartość p jest zmienną losową, a błąd typu I oznacza prawdopodobieństwo, że ta zmienna losowa jest mniejsza niż . Czy to jest poprawne? α

1
+1, ale sugestia, że ​​znaczenie wartości P jest niejasne, gdy wartość null jest fałszywa, wprowadza w błąd. Im mniejsza wartość P, tym większa rozbieżność między wartością zerową a obserwowaną. Im większy rozmiar próbki, tym bliżej można założyć, że rzeczywisty rozmiar efektu odpowiada wielkości obserwowanego efektu. Warto zauważyć, że testowanie istotności jest analogiczne do szacowania.
Michael Lew

3
@MichaelLew, nie jestem pewien, czy wartość p oznacza te rzeczy same w sobie. W połączeniu z / N (a konkretnie utrzymując stałą N) mniejsze p będzie odpowiadać większej rozbieżności b / t zerowej i obserwowanej. Nawet wtedy jest to coś więcej, co można wywnioskować z p, niż coś p oznacza . Prawdą jest również, że w / większe N ​​obserwowanych rozmiarów efektów powinno być bliższe prawdziwym ES, ale mniej jasne jest dla mnie, jaką rolę odgrywa tam p. EG, z fałszywym zerem, prawdziwy efekt może być nadal bardzo mały, i z / dużym N spodziewalibyśmy się, że obserwowana ES będzie bliska, ale p może być nadal duże.
gung - Przywróć Monikę

1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α

8

Chciałbym skomentować „nieistotność testowania istotności hipotezy zerowej”, ale który nie odpowiada na pytanie PO.

pH0H0:{θ=0}θ=ϵϵϵ0ϵ0


3
+1 Tak, prawdziwy problem z konwencjonalnym testowaniem hipotez polega na tym, że odpowiada on na pytanie, na które tak naprawdę nie jesteś zainteresowany odpowiedzią, tj. „Czy istnieje znaczący dowód różnicy?”, A nie „czy istnieją dowody znaczącej różnicy? „. Oczywiście tak naprawdę pożądane jest ogólnie „jakie jest prawdopodobieństwo, że moja hipoteza badawcza jest prawdziwa?”, Ale nie można na to odpowiedzieć w ramach częstych. Błędna interpretacja wynika zazwyczaj z prób traktowania testu częstokrzyskiego w kategoriach bayesowskich.
Dikran Torbacz

1
Nie jest dobrym pomysłem oddzielenie znaczenia wartości P i wielkości próby. Mniejsza wartość P wskazuje na większy rozmiar efektu przy dowolnej wielkości próbki, a dla każdej określonej wartości P większy rozmiar próbki wskazuje, że rzeczywisty rozmiar efektu jest prawdopodobnie bliższy wielkości obserwowanego efektu. Testy istotności należy rozpatrywać w kontekście oceny, a nie błędów. Większa próbka zawsze zawiera więcej informacji - sposób interpretacji zależy od eksperymentatora. Skarga na nieistotny efekt dużej próbki stanowi jedynie problem w testowaniu hipotez Neymana-Pearsona.
Michael Lew
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.