Nieporozumienie wartości p?

17

Czytałem więc dużo o tym, jak poprawnie interpretować wartość p, a z tego, co przeczytałem, wartość p mówi NIC o prawdopodobieństwie, że hipoteza zerowa jest prawdziwa lub fałszywa. Jednak podczas czytania następującego oświadczenia:

Wartość p reprezentuje prawdopodobieństwo popełnienia błędu typu I lub odrzucenia hipotezy zerowej, gdy jest ona prawdziwa. Im mniejsza wartość p, tym mniejsze prawdopodobieństwo błędnego odrzucenia hipotezy zerowej.

EDYCJA: A potem 5 minut później czytam:

Błędne interpretacje wartości P są bardzo częste. Najczęstszym błędem jest interpretacja wartości P jako prawdopodobieństwa popełnienia błędu przez odrzucenie prawdziwej hipotezy zerowej (błąd typu I).

Zdezorientowało mnie to. Który jest prawidłowy? I czy ktoś może wyjaśnić, jak poprawnie zinterpretować wartość p i jak prawidłowo odnosi się do prawdopodobieństwa popełnienia błędu typu I?

hypothesis-testing p-value

— rb612
źródło

1

The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueWartość p reprezentuje prawdopodobieństwo apriori popełnienia błędu typu I, to znaczy odrzucenia hipotezy zerowej przy założeniu, że jest to prawda.

— ttnphns,

4

@Paul: prawdopodobieństwo odrzucenia wartości null pod warunkiem, że wartość null jest prawdą, to prawdopodobieństwo błędu typu I, nie jest to to samo co wartość p. Prawdopodobieństwo wystąpienia błędu typu I jest równe (dla ciągłych zmiennych losowych) wybranemu poziomowi istotności, patrz również moja odpowiedź poniżej.

Tak, rozumiem teraz, masz absolutną rację.

— Paul,

4

@fcoppens Prawdopodobieństwo błędu typu I jest równe uprzednio wybranemu poziomowi alfa tylko wtedy, gdy pod warunkiem, że hipoteza zerowa jest prawdziwa. W bezwarunkowym przypadku nie wiesz, czy wartość null jest prawdą czy fałszem, dlatego możesz określić prawdopodobieństwo błędu typu I tylko wtedy, gdy podasz wcześniejsze prawdopodobieństwo prawdziwości wartości null.

— Michael Lew - przywraca Monikę

@Michael Lew: To uwarunkowanie zerowe jest wspomniane w mojej odpowiedzi poniżej?

25

Z powodu twoich komentarzy utworzę dwie osobne sekcje:

wartości p

W testowaniu hipotez statystycznych można znaleźć „dowody statystyczne” dla hipotezy alternatywnej ; Jak wyjaśniłem w Co dalej, jeśli nie odrzucimy hipotezy zerowej? , jest podobny do „dowodu sprzeczności” w matematyce.

Jeśli więc chcemy znaleźć „dowody statystyczne”, zakładamy coś przeciwnego, co oznacza tego, co próbujemy udowodnić, co nazywamy . Następnie narysujemy próbkę, a na jej podstawie obliczamy tak zwaną statystykę testową (np. Wartość t w teście t). $H_0$ $H_1$

Następnie, zakładając, że jest prawdą i że nasza próbka jest losowo pobierana z rozkładu pod , możemy obliczyć prawdopodobieństwo zaobserwowania wartości, które przekraczają lub równe wartości uzyskanej z naszej (losowej) próbki. Prawdopodobieństwo to nazywa się wartością p. $H_0$ $H_0$

Jeśli ta wartość jest „wystarczająco mała”, tj. Mniejsza niż poziom istotności, który wybraliśmy, wówczas odrzucamy i uważamy, że jest „statystycznie udowodnione”. $H_0$ $H_1$

W ten sposób ważne jest kilka rzeczy:

wyprowadziliśmy prawdopodobieństwa przy założeniu, że jest prawdziwe $H_0$
pobraliśmy losową próbkę z dystrakcji przyjętej dla $H_0$
się zdecydować , aby znaleziono dowodów , jeśli test statystyczny, pochodzący z próbki losowo ma małe prawdopodobieństwo jest przekroczony. Nie jest więc niemożliwe, że zostanie on przekroczony, gdy jest prawdą, aw takich przypadkach popełniamy błąd typu I. $H_1$ $H_0$

Czym więc jest błąd typu I: błąd typu I powstaje, gdy próbka losowo pobrana z prowadzi do wniosku, że jest fałszem, podczas gdy w rzeczywistości jest prawdą. $H_0$ $H_0$

Należy pamiętać, że oznacza to, że wartość p nie jest prawdopodobieństwo błędu I rodzaju . Rzeczywiście, błąd typu I jest złą decyzją testu i decyzję można podjąć tylko poprzez porównanie wartości p z wybranym poziomem istotności, przy samej wartości p nie można podjąć decyzji, to dopiero po porównaniu wartość p do wybranego poziomu istotności, że podejmowana jest decyzja , i dopóki nie zostanie podjęta decyzja, błąd typu I nie jest nawet zdefiniowany.

Jaka jest zatem wartość p? Potencjalnie niewłaściwe odrzucenie wynika z faktu, że losujemy próbkę pod , więc może być tak, że mamy „pecha” poprzez losowanie próbki i że to „pech” prowadzi do fałszywego odrzucenia . Zatem wartość p (chociaż nie jest to w pełni poprawna) bardziej przypomina prawdopodobieństwo wyciągnięcia „złej próbki”. Prawidłowa interpretacja wartości p polega na tym, że prawdopodobieństwo, że statystyka testowa przekroczy lub zrównuje wartość statystyki testowej uzyskanej z losowo dobranej próbki pod $H_0$ $H_0$ $H_0$ $H_0$

Fałszywy wskaźnik wykrywalności (FDR)

Jak wyjaśniono powyżej, za każdym razem, gdy hipoteza zerowa jest odrzucana, uważa się to za „dowód statystyczny” dla . Znaleźliśmy więc nową wiedzę naukową, dlatego nazywa się to odkryciem . Wyjaśniono również powyżej, że możemy popełnić fałszywe odkrycia (tj. Fałszywie odrzucając ), gdy popełniamy błąd typu I. W takim przypadku mamy fałszywe przekonanie o naukowej prawdzie. Chcemy tylko odkrywać prawdziwe rzeczy i dlatego staramy się ograniczyć liczbę fałszywych odkryć do minimum, tj. Kontrolować nad błędem typu I. Nietrudno dostrzec, że prawdopodobieństwo błędu typu I jest wybranym poziomem istotności . Aby więc kontrolować błędy typu I, naprawia się $H_1$ $H_0$ $\alpha$ $\alpha$ - poziom odzwierciedlający Twoją gotowość do zaakceptowania „fałszywych dowodów”.

Intuicyjnie oznacza to, że jeśli narysujemy ogromną liczbę próbek i przy każdej próbce przeprowadzimy test, wówczas ułamek tych testów doprowadzi do błędnego wniosku. Należy zauważyć, że „uśredniamy wiele próbek” ; taki sam test, wiele próbek. $\alpha$

Jeśli wykorzystamy tę samą próbkę do wykonania wielu różnych testów, wówczas wystąpi błąd wielokrotnego testowania (zobacz moją anserię dotyczącą granicy błędów dla całej rodziny: Czy ponowne użycie zestawów danych w różnych badaniach niezależnych pytań prowadzi do wielu problemów z testowaniem? ). W takim przypadku można kontrolować inflację za pomocą technik kontroli rodzinnego wskaźnika błędów (FWER) , takich jak np. Korekcja Bonferroniego. $\alpha$

Innym podejściem niż FWER jest kontrolowanie wskaźnika fałszywych odkryć (FDR) . W tym przypadku jeden kontroluje liczbę fałszywych odkryć (FD) wśród wszystkich odkryć (D), więc jeden steruje , D jest liczbą odrzuconych. $\frac{FD}{D}$ $H_0$

Więc typ prawdopodobieństwo błędu I ma do czynienia z wykonaniem samego testu na wielu różnych próbkach. W przypadku ogromnej liczby próbek prawdopodobieństwo błędu typu I zbiegnie się z liczbą próbek prowadzącą do fałszywego odrzucenia podzieloną przez całkowitą liczbę pobranych próbek .

FDR ma do czynienia z licznymi testami na tej samej próbce, a dla ogromnej liczby badań będzie zbiegają do liczby prób, gdzie jest błąd typu I jest wykonana (czyli liczba fałszywych odkryć) podzielona przez łączną liczbę odrzucenie (tj. Całkowita liczba odkryć) $H_0$ .

Zauważ, że porównując dwa akapity powyżej:

Kontekst jest inny; jeden test i wiele próbek w porównaniu do wielu testów i jednej próbki.
Mianownik do obliczania prawdopodobieństwa błędu typu I wyraźnie różni się od mianownika do obliczania FDR. Liczniki są w pewien sposób podobne, ale mają inny kontekst.

FDR mówi ci, że jeśli wykonasz wiele testów na tej samej próbce i znajdziesz 1000 odkryć (tj. Odrzucenia ), to przy FDR równym 0,38 będziesz miał fałszywych odkryć. $H_0$ $0.38 \times 1000$

— Greenstick
źródło

5

The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0

Czy tak jest Czy to nie „równa się lub przekracza”? Wartość p jest prob, że przy prawdziwym H0 obserwujemy różnicę lub powiązanie to lub silniejsze niż faktycznie zaobserwowane.

— ttnphns,

@ttnphns Dla statystyki testu ciągłego nie ma różnicy, ponieważ miarą punktu jest zero. W przypadku dyskretnej statystyki testu masz rację (+1). Odpowiednio zmieniłem tekst.

1

Wprowadzasz bardzo przydatne rozróżnienie między wartościami P a wskaźnikami błędów typu I, ale myślę, że musisz bardziej uważać na słowo „udowodnione”. Moim zdaniem dodanie modyfikatora „statystycznie” nie zmiękcza go wystarczająco.

— Michael Lew - przywróć Monikę

1

Miałeś do czynienia z dowodami, jakby miał tylko stan binarny: istnieje i nie istnieje. W standardowym rozumieniu dowodów niestatystycznych pojęcie słowa ma stopniowe istnienie i jest bardziej skomplikowane, niż można uchwycić pojedynczy wymiar siły. Trudność wynika z niezgodności rozważań dotyczących poziomu błędu ze zwykłymi interpretacjami dowodów. Byłbym bardzo zainteresowany przeczytaniem każdego konta, które przechwytuje niebinarną interpretację „dowodów” w ramach FDR. (Jeszcze nie widziałem.)

— Michael Lew - przywraca Monikę

1

Dziękuję za poprawę. Dokonałem istotnej zmiany ostatniej nocy i zapisałem twój post.

— Antoni Parellada,

4

Pierwsze stwierdzenie nie jest ściśle prawdziwe.

Z fajnego artykułu na temat niezrozumienia znaczenia: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Signiance.pdf )

„[To oświadczenie] może wyglądać podobnie do definicji błędu typu I (tj. Prawdopodobieństwa odrzucenia H0, chociaż w rzeczywistości jest to prawda), ale po odrzuceniu H0 decyzja ta byłaby błędna, gdyby tylko H0 były prawdziwe. Zatem prawdopodobieństwo, że „podejmujesz błędną decyzję” wynosi p (H0) i tego prawdopodobieństwa ... nie można obliczyć za pomocą testu istotności hipotezy zerowej. „

Mówiąc prościej, aby ocenić prawdopodobieństwo, że nieprawidłowo odrzuciłeś H0, potrzebujesz prawdopodobieństwa, że H0 jest prawdziwe, czego po prostu nie możesz uzyskać za pomocą tego testu.

— Henry B.
źródło

Dziękuję Ci! Więc kiedy czytam pierwszą część statystykidonewrong.com/p-value.html , autor stwierdza, że FDR wynosi 38%, a zatem prawdopodobieństwo błędu typu I wynosi 38%?

— rb612,

FDR jest wskaźnikiem fałszywego wykrywania i bardzo różni się od błędu typu I, więc odpowiedź na twoje pytanie brzmi „nie”. FDR ma związek z wieloma testami, tzn. Kiedy wykonujesz wiele testów na tej samej próbce, patrz stats.stackexchange.com/questions/164181/… . FDR jest alternatywą dla Familywise Error Rate, ale wyjaśnia, że liczba znaków w komentarzu jest zbyt ograniczona.

W odpowiedzi dodałem drugą sekcję dotyczącą wyjaśniania FDR.

1

Ponieważ nie jest możliwe ustalenie prawdopodobieństwa, że H0 jest prawdziwe bez uprzedniej, nie jest możliwe określenie FDR bez wcześniejszej. Bądź ostrożny w interpretacji dokumentów FDR, ponieważ użyte w nich priory mogą niekoniecznie mieć związek z twoimi własnymi eksperymentalnymi okolicznościami.

— Michael Lew - przywraca Monikę

1

Prawidłowa interpretacja wartości p jest warunkowym prawdopodobieństwem wyniku co najmniej tak samo przewodzącym hipotezie alternatywnej, jak wartość obserwowana (przynajmniej jako „ekstremalna”), przy założeniu , że hipoteza zerowa jest prawdziwa . Niepoprawne interpretacje zazwyczaj wiążą się z marginalnym prawdopodobieństwem lub zmianą warunku:

\begin{aligned} wartość p = P. (Przynajmniej tak ekstremalny, jak zaobserwowany wynik | {H.}_{0}) \neq P. (Błąd typu I.) . \end{aligned}

$\begin{equation} \begin{aligned} \text{p-value} = \mathbb{P}(\text{At least as extreme as observed outcome} | H_0) \neq \mathbb{P}(\text{Type I error} ). \end{aligned} \end{equation}$

— Przywróć Monikę
źródło

-1

Wartość p pozwala nam ustalić, czy hipoteza zerowa (lub hipoteza twierdzona) może zostać odrzucona, czy nie. Jeśli wartość p jest mniejsza niż poziom istotności α, oznacza to statystycznie istotny wynik i hipotezę zerową należy odrzucić. Jeśli wartość p jest większa niż poziom istotności α, wówczas hipoteza zerowa nie może zostać odrzucona. Jest to cały powód szukania wartości p, jeśli używasz tabeli lub kalkulatora online, takiego jak ten, kalkulator wartości p , aby znaleźć wartość p ze statystyki testowej.

Teraz wiem, że wspomniałeś o błędach typu I i II. To naprawdę nie ma nic wspólnego z wartością p. Ma to związek z oryginalnymi danymi, takimi jak zastosowana wielkość próby i wartości uzyskane dla danych. Jeśli na przykład wielkość próbki jest zbyt mała, może to prowadzić do błędu typu I.

— użytkownik 1445657
źródło

2

-1. Przykro mi, że witam cię na naszej stronie z przegłosowaniem, ale ta odpowiedź jest po prostu nieprawidłowa: po prostu nie jest tak, że wartość p jest prawdopodobieństwem prawdziwości hipotezy zerowej. Jest to szeroko dyskutowane w wielu wątkach dotyczących wartości p i testów hipotez, takich jak stats.stackexchange.com/questions/31 .

— whuber

1

Zmodyfikowałem nieco oryginalną odpowiedź, aby była bardziej precyzyjna.

— user1445657