Dlaczego wyniki 0,05 <p <0,95 nazywane są wynikami fałszywie dodatnimi?

Edycja: Podstawa mojego pytania jest wadliwa i muszę poświęcić trochę czasu na zastanowienie się, czy to w ogóle ma sens.

Edycja 2: Wyjaśnienie, że uznaję, że wartość p nie jest bezpośrednią miarą prawdopodobieństwa hipotezy zerowej, ale zakładam, że im wartość p jest bliższa 1, tym bardziej prawdopodobne jest, że hipoteza ma została wybrana do testów eksperymentalnych, których odpowiednia hipoteza zerowa jest prawdziwa, podczas gdy im wartość p jest bliższa 0, tym bardziej prawdopodobne jest, że wybrano hipotezę do testów eksperymentalnych, których odpowiadająca hipoteza zerowa jest fałszywa. Nie widzę, jak to jest fałszywe, chyba że zestaw wszystkich hipotez (lub wszystkich hipotez wybranych do eksperymentów) jest w jakiś sposób patologiczny.

Edycja 3: Myślę, że wciąż nie używam jasnej terminologii, aby zadać moje pytanie. Gdy numery loterii są odczytywane, a ty dopasowujesz je do kuponu jeden po drugim, coś się zmienia. Prawdopodobieństwo wygranej nie zmienia się, ale zmienia się prawdopodobieństwo, że możesz wyłączyć radio. Podobna zmiana ma miejsce po zakończeniu eksperymentów, ale mam wrażenie, że terminologia, której używam - „wartości p zmieniają prawdopodobieństwo, że wybrano prawdziwą hipotezę” - nie jest poprawną terminologią.

Edycja 4: Otrzymałem dwie niezwykle szczegółowe i pouczające odpowiedzi, które zawierają wiele informacji, dzięki którym mogę przepracować. Głosuję teraz oboje, a potem wrócę, by je zaakceptować, gdy nauczyłem się na podstawie obu odpowiedzi wystarczająco dużo, aby wiedzieć, że odpowiedzieli lub unieważnili moje pytanie. To pytanie otworzyło znacznie większą puszkę robaków niż ta, którą spodziewałem się zjeść.

W artykułach, które przeczytałem, widziałem wyniki z p> 0,05 po walidacji zwane „fałszywie dodatnimi”. Jednak czy nie jest bardziej prawdopodobne, że wybrałem hipotezę do przetestowania z fałszywą odpowiadającą hipotezą zerową, gdy dane eksperymentalne mają ap ~~<0,50,~~ co jest niskie, ale> 0,05, i nie są zarówno hipotezą zerową, jak i hipoteza badawcza statystycznie niepewne / nieznaczny (biorąc pod uwagę istotność statystyczną konwencjonalny odcięcia) gdziekolwiek między 0,05 <p < ~~0,95~~ , co stanowi odwrotność p <0,05 jest, biorąc pod uwagę asymetrię wskazał w @ NickStauner w linku ?

Nazwijmy tę liczbę A i zdefiniujmy ją jako wartość p, która mówi to samo o prawdopodobieństwie, że wybrałeś prawdziwą hipotezę zerową w swoim eksperymencie / analizie, a wartość p 0,05 mówi o prawdopodobieństwie, że „ wybraliśmy prawdziwą hipotezę inną niż zero dla twojego eksperymentu / analizy. Nie ma 0,05 <p <Po prostu powiedz: „Twoja próbka nie była wystarczająco duża, aby odpowiedzieć na pytanie, i nie będziesz w stanie ocenić znaczenia aplikacji / świata rzeczywistego, dopóki nie uzyskasz większej próbki i nie uzyskasz statystyk znaczenie uporządkowane "?

Innymi słowy, czy nie powinno być prawidłowe nazywanie wyniku zdecydowanie fałszywym (a nie po prostu nieobsługiwanym) wtedy i tylko wtedy, gdy p> A?

Wydaje mi się to proste, ale takie powszechne użycie mówi mi, że mogę się mylić. Jestem:

a) błędnie interpretuje matematykę,
b) narzeka na nieszkodliwą, jeśli nie dokładnie poprawną konwencję,
c) całkowicie poprawną, lub
d) inną?

Rozumiem, że to brzmi jak wezwanie do wyrażenia opinii, ale wydaje się, że jest to pytanie z jednoznaczną matematycznie poprawną odpowiedzią (po ustaleniu granicy istotności), że ja lub (prawie) wszyscy inni się mylą.

hypothesis-testing p-value

— Andrew Klaassen
źródło

Cześć David. Oto artykuł, który zmusił mnie do myślenia: link

— Andrew Klaassen

W pierwszej linii nie masz na myśli, zamiast pisać”... wyniki pierwotnie z

p < 0.05

$p\lt 0.05$ ale później z

p \geq 0.05

$p\ge 0.05$ po sprawdzeniu poprawności ... ”? Wynik z

p

$p$ większy niż próg

α

$\alpha$ w przeciwnym razie nazywany jest wynikiem ujemnym . Nawet po twoich edycjach twoja charakterystyka interpretacji

p

$p$ jest niepoprawny, dlatego sugeruję, abyś poświęcił kilka chwil na przejrzenie niektórych naszych postów dotyczących interpretacji wartości p i ponowne rozważenie tego, o co chcesz zapytać.

— whuber

Możesz usunąć swoje pytanie, jeśli chcesz, ale ponieważ otrzymałeś dwa głosy poparcia (och, zróbmy to 3), poprawioną odpowiedź i masz zamiar otrzymać kolejną odpowiedź od „twoje naprawdę”, proszę, abyś ją zostawił działajcie i pracujcie nad tym, co uznacie za stosowne, choć z szacunkiem oddaję wam prawo do robienia tego, co chcecie. Twoje zdrowie!

— Nick Stauner

Zgadzam się z @Nick, Andrew: masz tutaj przekonujące i prowokujące pytanie, które wzbudziło pewne przemyślenia i uwagi, więc bylibyśmy bardzo wdzięczni, gdybyś je opublikował, a jeśli możesz, udoskonaliłby to, aby skupić się na kluczowa kwestia dotycząca interpretacji wartości p. Nowa część, z tego co mogę powiedzieć, to sugestia, że kryterium odrzucenia powinno opierać się na dużej wartości p. Re twój komentarz: fałszywy wynik dodatni występuje, gdy test jest znaczący, ale wiadomo, że hipoteza zerowa jest prawdziwa.

— whuber

@whuber: Bardziej przekonujące dla mnie jest to, jaki wynik sugerowałby, że dalszy eksperyment z większą wielkością próby może być produktywny. Biorąc pod uwagę dotychczasowe odpowiedzi, wydaje się, że muszę zapytać, czy wartości p mogą być nawet powiązane z tym pytaniem. Wiedząc, że hipoteza zerowa jest prawdziwa jako miara fałszywie dodatniego: Kiedy można powiedzieć, że hipoteza zerowa jest prawdziwa poza sytuacją p> (1 - α)?

— Andrew Klaassen

Odpowiedzi:

Twoje pytanie opiera się na fałszywej przesłance:

czy hipoteza zerowa nie jest jeszcze bardziej prawdopodobna niż niepoprawna, gdy p <0,50

Wartość p nie jest prawdopodobieństwem, że hipoteza zerowa jest prawdziwa. Na przykład, jeśli weźmiesz tysiąc przypadków, w których hipoteza zerowa jest prawdziwa, połowa z nich będzie miała p < .5. Ci, połowa będzie wszystko być null.

W rzeczywistości pomysł, który p > .95oznacza, że hipoteza zerowa jest „prawdopodobnie prawdziwa”, jest również myląca. Jeśli hipoteza zerowa jest prawdziwa, prawdopodobieństwo p > .95jest dokładnie takie samo jak prawdopodobieństwo, że p < .05.

ETA: Twoja edycja wyjaśnia, na czym polega problem: nadal masz problem powyżej (że traktujesz wartość p jako prawdopodobieństwo późniejsze, gdy tak nie jest). Ważne jest, aby zauważyć, że nie jest to subtelne filozoficzne rozróżnienie (jak myślę sugerujesz w dyskusji na temat losów na loterię): ma to ogromne praktyczne implikacje dla każdej interpretacji wartości p.

Ale tam jest przekształcenie można wykonać na wartości p, który będzie Ci do tego, co szukasz, i to się nazywa lokalny fałszywych odkrycie. (Jak opisano w tym ładnym artykule , jest to częsty odpowiednik „prawdopodobieństwa błędu bocznego”, więc pomyśl o tym w ten sposób, jeśli chcesz).

Pracujmy z konkretnym przykładem. Załóżmy, że przeprowadzasz test t, aby ustalić, czy próbka 10 liczb (z rozkładu normalnego) ma średnią 0 (test t, jednostronny, dwustronny). Najpierw zobaczmy, jak wygląda rozkład wartości p, gdy średnia faktycznie wynosi zero, z krótką symulacją R:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

wprowadź opis zdjęcia tutaj

Jak widzimy, zerowe wartości p mają równomierny rozkład (równie prawdopodobne we wszystkich punktach od 0 do 1). Jest to niezbędny warunek wartości p: w rzeczywistości to właśnie oznaczają wartości p! (Biorąc pod uwagę, że wartość null jest prawdą, istnieje 5% szansy, że jest mniejsza niż .05, 10% szansy, że jest mniejsza niż .1 ...)

Rozważmy teraz alternatywną hipotezę - przypadki, w których wartość zerowa jest fałszywa. Teraz jest to trochę bardziej skomplikowane: kiedy wartość null jest fałszywa, „jak fałszywa”? Średnia próbki nie wynosi 0, ale czy to .5? 1? 10? Czy to losowo się zmienia, czasem małe, a czasem duże? Dla uproszczenia, powiedzmy, że zawsze jest równe .5 (ale pamiętaj o tej komplikacji, będzie to ważne później):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

wprowadź opis zdjęcia tutaj

Zauważ, że rozkład nie jest teraz jednolity: jest przesunięty w kierunku 0! W swoim komentarzu wspominasz o „asymetrii”, która dostarcza informacji: to ta asymetria.

Wyobraź sobie, że znasz obie te dystrybucje, ale pracujesz z nowym eksperymentem, a także masz przedtem, że istnieje 50% szansa, że jest zerowa, a 50%, że jest to alternatywa. Otrzymujesz wartość p wynoszącą 0,7. Jak możesz dostać się od tego i wartości p do prawdopodobieństwa?

Co powinieneś zrobić, to porównać gęstości :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

I spójrz na swoją wartość p:

abline(v=.7, col="red", lty=2)

wprowadź opis zdjęcia tutaj

Ten stosunek między gęstością zerową a gęstością alternatywną można wykorzystać do obliczenia lokalnego wskaźnika fałszywego wykrywania : im wyższa wartość zerowa w stosunku do alternatywy, tym wyższy lokalny FDR. Takie jest prawdopodobieństwo, że hipoteza jest zerowa (technicznie ma ona ściślejszą interpretację częstokroć, ale tutaj będzie prosta). Jeśli że wartość jest bardzo wysoka, wówczas można dokonać interpretacji „hipoteza zerowa jest prawie na pewno prawdziwe.” Rzeczywiście, możesz zrobić próg .05 i .95 lokalnego FDR: to miałoby właściwości, których szukasz. (A ponieważ lokalny FDR rośnie monotonicznie z wartością p, przynajmniej jeśli robisz to dobrze, przełożą się one na niektóre progi A i B, w których możesz powiedzieć „

Teraz już słyszę, jak pytasz „dlaczego więc nie użyjemy tego zamiast wartości p?” Dwa powody:

Musisz wcześniej ustalić prawdopodobieństwo, że test jest zerowy
Musisz znać gęstość w ramach alternatywy. Jest to bardzo trudne do odgadnięcia, ponieważ musisz określić, jak duże mogą być twoje rozmiary efektów i wariancje i jak często są!

Nie potrzebujesz żadnego z nich do testu wartości p, a test wartości p nadal pozwala uniknąć fałszywych trafień (co jest jego głównym celem). Teraz, to jest możliwe oszacowanie zarówno tych wartości w wielu testów hipotezy, gdy masz tysiące p-wartości (takich jak jednego testu dla każdej z tysięcy genów: patrz ten papier lub ten papier na przykład), ale nie wtedy, gdy wykonuję pojedynczy test.

Na koniec możesz powiedzieć: „Czy papier nadal nie jest w błędzie, jeśli powiedziano, że replikacja, która prowadzi do wartości p powyżej 0,05, jest koniecznie fałszywie dodatnia?” Cóż, chociaż prawdą jest, że uzyskanie jednej wartości p 0,04 i kolejnej wartości p 0,06 tak naprawdę nie oznacza, że oryginalny wynik był nieprawidłowy, w praktyce jest to rozsądna miara do wyboru. Ale w każdym razie możesz być zadowolony, że inni mają co do tego wątpliwości! Artykuł, do którego się odwołujesz, jest nieco kontrowersyjny w statystykach: ten artykuł używa innej metody i dochodzi do zupełnie innych wniosków na temat wartości p z badań medycznych, a następnie to badanie zostało skrytykowane przez niektórych wybitnych Bayesianów (i to w kółko ...). Tak więc, chociaż twoje pytanie opiera się na błędnych założeniach dotyczących wartości p, myślę, że analizuje interesujące założenie ze strony cytowanego dokumentu.

— David Robinson
źródło

Cześć David. Uczciwy punkt. Popracuję nad sformułowaniem mojego pytania, aby nie pomylić tej części i sprawdzić, czy nadal widzę problem.

— Andrew Klaassen

@David_Robinson: Czy poprawne byłoby zastosowanie wartości p jako wskaźnika fałszywego alarmu w regule Bayesa i być w stanie wyciągnąć wnioski na temat prawdopodobieństwa badań i / lub hipotez zerowych? Ustawić przed 50% i grać szybko i luźno? :-)

— Andrew Klaassen

Tak, fascynujące! Czy potrafisz to przełożyć na swoją odpowiedź? Ale istnieje asymetria między zachowaniem p, gdy wartość null jest prawdziwa, a gdy jest fałszem, że ~ musi ~ podać pewne informacje o prawdopodobieństwie, że hipoteza null jest prawdziwa, na podstawie wartości p wyodrębnionej z danych. Jeśli prawdziwa hipoteza zerowa daje równomiernie rozłożone wartości p, a prawdziwa hipoteza zerowa produkuje wartości p, które są przekrzywione w kierunku 0, wyciągnięcie ap = 0,01 marmuru ~ musi ~ sugerować, że prawdopodobnie wybrałeś nie - zero słoików eksperymentów, nawet jeśli prawdopodobieństwo nie zostanie zmienione przez wykonanie eksperymentu.

— Andrew Klaassen

@AndrewKlaassen: Być może interesuje Cię koncepcja „lokalnego wskaźnika fałszywych odkryć”. Częstotliwość jest równoważna z Bayesowskim prawdopodobieństwem tylnym, że zero jest prawdziwe. Wymaga to dwóch rzeczy: a) wcześniejszego prawdopodobieństwa, że wartość null jest prawdziwa (czasem nazywanego pi0), oraz b) oszacowania gęstości dla alternatywnej hipotezy. W testowaniu wielu hipotez (jeśli miałeś tysiące wartości p), możliwe jest oszacowanie obu z nich, patrząc na gęstość. Jeśli mam trochę więcej czasu, w mojej odpowiedzi mogę znaleźć głębsze wyjaśnienie.

— David Robinson

@AndrewKlaassen: Zobacz moją edycję, w której szczegółowo wyjaśniam lokalny FDR, dlaczego jest to sposób na obliczenie swojej wartości „A” (chociaż możesz chcieć zmienić .05 podczas obliczania A), a także dlaczego jest ona rzadko używana . W każdym razie, aby wyjaśnić jeden punkt, który tak naprawdę nie pasuje do odpowiedzi: twój przykład z losem loterii źle rozumie punkt, który ja i inni podnieśliśmy. Nie przejmowaliśmy się pomysłem „czy prawdopodobieństwo zmienia się dzięki nowym informacjom” (zarówno Bayesianie, jak i osoby często odwiedzające mają taką interpretację): chodzi o to, że nie zmieniłeś ich we właściwy sposób!

— David Robinson

^{Umieść kursor myszy nad dowolnym etykietka ( $\leftarrow$ to fałszywy tag) pojawiający się poniżej, aby zobaczyć krótki fragment jego wiki. Proszę wybaczyć zakłócenie odstępów między wierszami. Uważam, że warto, ponieważ fragmenty znaczników mogą pomóc czytelnikom sprawdzić zrozumienie żargonu podczas czytania. Niektóre z tych fragmentów również zasługują na edycję, więc zasługują również na publicystę, IMHO.}

$p>.05$ zwykle oznacza, że nie należy odrzucać Hipoteza zerowa. Odwrotnie,błędy typu ilub fałszywie dodatnie występują, gdy ktoś odrzuci null z powodupróbowanie błąd lub inne nietypowe zdarzenie, które powoduje próba to poza tym było mało prawdopodobne (zwykle z $p<.05$ ), z którego pobrano losowo próbkę z populacjaw którym wartość null jest prawdziwa. Wynik z $p>.05$ to nazywane fałszywym pozytywem wydaje się odzwierciedlać nieporozumienie hipotezy zerowej test istotnościing (NHST). Nieporozumienia nie są rzadkie w opublikowanej literaturze naukowej, ponieważ NHST jest notorycznie sprzeczne z intuicją. Jest to jeden z okrzyków rajdowychBayesianinwazja (którą popieram, ale nie śledzę ... jeszcze). Do niedawna pracowałem z błędnymi wrażeniami, takimi jak te, więc bardzo współczuję.

@DavidRobinson ma rację, obserwując to $p$ nie jest prawdopodobieństwem fałszu wartości null częstyNHST. Jest to (przynajmniej) jedno z nieporozumień Goodmana ⁽²⁰⁰⁸⁾ „Dirty Dozen” $p$ wartości ^{(patrz także Hurlbert i Lombardi, 2009 )} . W NHST $p$ jest prawdopodobieństwo że losuje się przyszłe losowe próbki w ten sam sposób, który wykazywałby związek lub różnicę (lub cokolwiek innego wielkość efektu jest testowany pod kątem wartości zerowej, jeśli istnieją inne odmiany wielkości efektu ...?) co najmniej tak różnej od hipotezy zerowej, jak próbka (próbki) z tej samej populacji (populacji), które badano, aby dojść do danej $p$ wartość, jeśli wartość null jest prawdziwa. To jest, $p$ jest prawdopodobieństwem otrzymania próbki takiej jak Twoja, biorąc pod uwagę zero ; nie odzwierciedla prawdopodobieństwa zera - przynajmniej nie bezpośrednio. I odwrotnie, metody bayesowskie szczycą się formułowaniem analiz statystycznych, które koncentrują się na szacowaniu dowodów za lub przeciwwcześniejszyteoria efektu, biorąc pod uwagę dane , które argumentują, jest bardziej intuicyjnie atrakcyjnym podejściem ^{( Wagenmakers, 2007 )} , oprócz innych zalet, i ^pomija wady dyskusyjne. (Aby być uczciwym, patrz „ Jakie są wady analizy bayesowskiej? ”. Skomentowałeś również cytowanie artykułów, które mogą tam dać kilka fajnych odpowiedzi: ^{Moyé, 2008; Hurlbert i Lombardi, 2009 ).}

Prawdopodobnie dosłownie sformułowana hipoteza zerowa jest często bardziej niż błędna, ponieważ najczęściej hipotezami zerowymi są dosłownie hipotezy o zerowym skutku. (Aby znaleźć kilka przydatnych przeciwnych przykładów, zobacz odpowiedzi na: „ Czy duże zestawy danych są nieodpowiednie do testowania hipotez? ”). Problemy filozoficzne, takie jak efekt motyla, zagrażają dosłownościważnośćjakiejkolwiek takiej hipotezy; stąd wartość zerowa jest najogólniej użyteczna jako podstawa do porównania alternatywnej hipotezy o pewnym niezerowym efekcie. Taka alternatywna hipoteza może pozostać bardziej prawdopodobna niż zerowa po zebraniu danych, co byłoby nieprawdopodobne, gdyby zerowa była prawdziwa . Dlatego naukowcy zazwyczaj wnioskują o poparciu dla alternatywnej hipotezy na podstawie dowodów przeciwko zeru, ale to nie towartości pkwantyfikować bezpośrednio ^{( Wagenmakers, 2007 )} .

Jak podejrzewasz znaczenie statystyczne jest funkcją wielkość próbki, a także wielkość i spójność efektu. (Patrz @ gung na odpowiedź na niedawne pytanie: „ W jaki sposób test t być istotne statystycznie, jeżeli średnia różnica jest prawie 0? ”), Pytania często zamierzają poprosić o nasze dane są „Jaki jest wpływ xna y? „ Z różnych powodów (w tym IMO, źle zrozumianych i w inny sposób wadliwych programów edukacyjnych w statystyce, zwłaszcza takich, jak nauczają nie-statystycy), często zamiast tego dosłownie zadajemy dosłownie luźno powiązane pytanie: „Jakie jest prawdopodobieństwo losowego próbkowania danych takich jak moje z populacji, na którą xto nie wpływa y? ” Jest to zasadnicza różnica między odpowiednio oszacowaniem wielkości efektu a testowaniem istotności. ZA $p$ wartość odpowiada tylko na to ostatnie pytanie bezpośrednio, ale kilku specjalistów (@rpierce prawdopodobnie dałoby ci lepszą listę niż ja; wybacz mi, że wciągnąłem cię w to!) argumentowało, że badacze źle odczytali $p$ jako odpowiedź na poprzednie pytanie o wielkość efektu zbyt często; Obawiam się, że muszę się zgodzić.

Aby odpowiedzieć bardziej bezpośrednio na znaczenie $.05<p<.95$ , jest to prawdopodobieństwo losowego próbkowania danych z populacji, dla której null jest prawdziwy, ale która wykazuje związek lub różnicę, która różni się od tej, którą null opisuje dosłownie przynajmniej o tak szerokim i spójnym marginesie, jak twoje dane. .. <wdech> ... wynosi między 5–95%. Z pewnością można argumentować, że jest to konsekwencja wielkości próby, ponieważ zwiększenie wielkości próby poprawia zdolność wykrywania małych i niespójnych rozmiarów efektów i odróżnia je od zerowej, powiedzmy, efektu zerowego z pewnością przekraczającą 5%. Jednak małe i niespójne rozmiary efektów mogą, ale nie muszą być znaczące pragmatycznie ( $\ne$ znaczący statystycznie - kolejny brudny tuzin Goodmana (2008); zależy to znacznie bardziej od znaczenia danych, z którymi istotność statystyczna dotyczy tylko w ograniczonym zakresie. Zobacz moją odpowiedź na powyższe .

Czy nie powinno być prawidłowe nazywanie wyniku zdecydowanie fałszywym (zamiast po prostu nieobsługiwanym), jeśli ... p> 0,95?

Ponieważ dane powinny zazwyczaj stanowić obserwacje oparte na faktach empirycznych, nie powinny być fałszywe; tylko wnioski na ich temat powinny idealnie zmierzyć się z tym ryzykiem. (Oczywiście pojawia się również błąd pomiaru, ale ten problem jest nieco poza zakresem tej odpowiedzi, więc pomijając to tutaj, zostawię go w spokoju.) Zawsze istnieje ryzyko, że fałszywe pozytywne wnioskowanie o tym, że wartość null jest mniej przydatne niż hipoteza alternatywna, przynajmniej jeśli wnioskodawca nie wie, że zero jest prawdziwe. Tylko w dość trudnych do wyobrażenia okolicznościach wiedzy, że wartość zerowa jest dosłownie prawdziwa, można wnioskować na korzyść alternatywnej hipotezy zdecydowanie fałszywe ... przynajmniej, o ile w tej chwili mogę to sobie wyobrazić.

Oczywiście powszechne stosowanie lub konwencja nie jest najlepszym autorytetem w zakresie ważności epistemicznej lub wnioskowania. Nawet opublikowane zasoby są omylne; patrz na przykład Błąd w definicji wartości p . W twojej literaturze ^{( Hurlbert i Lombardi, 2009 ) znajdziesz także} kilka interesujących ^objaśnień tej zasady ^{(strona 322):}

StatSoft (2007) chwali się na swojej stronie internetowej, że ich podręcznik online „jest jedynym zasobem internetowym na temat statystyk zalecanym przez Encyclopedia Brittanica”. Nigdy nie było tak ważne dla „Nieufności”, jak mówi naklejka na zderzaku. [Komicznie uszkodzony adres URL przekonwertowany na tekst z hiperłączem.]

Kolejny przykład: to zdanie w najnowszym artykule Nature News ^{( Nuzzo, 2014 )} : „Wartość P, wspólny wskaźnik siły dowodów ...” Patrz Wagenmakers ” ^{(2007, strona 787)} „Problem 3: $p$ Wartości nie określają ilościowo danych statystycznych ”... Jednak @MichaelLew ^{( Lew, 2013 )} nie zgadza się w sposób, który może okazać się przydatny: używa $p$ wartości do indeksowania funkcji prawdopodobieństwa. Jednak o ile te opublikowane źródła są ze sobą sprzeczne, przynajmniej jedno musi się mylić! (Myślę, że na pewnym poziomie ...) Oczywiście nie jest to tak złe, jak „niewiarygodne” jako takie. _{Mam nadzieję, że uda mi się nakłonić Michaela do bycia w tym miejscu, oznaczając go tak, jak ja (ale nie jestem pewien, czy tagi użytkownika wysyłają powiadomienia, gdy są edytowane w - nie sądzę, że twoje w OP) tak zrobiły. Może być jedynym, który może uratować Nuzzo - nawet samą Naturę ! Pomóż nam Obi-Wan! (I wybacz mi, jeśli moja odpowiedź tutaj pokazuje, że wciąż nie rozumiem implikacji twojej pracy, co jestem pewien, że w każdym razie mam ...)} BTW, Nuzzo oferuje również intrygującą samoobronę i odrzucenie „Problem 3” Wagenmaakers: patrz „Prawdopodobna przyczyna” Nuzzo^{( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner i Greenberg, 2007 )} . Mogą po prostu zawierać odpowiedź, której naprawdę szukasz, ale wątpię, czy mógłbym powiedzieć.

Re: pytanie wielokrotnego wyboru, wybieram d. Być może błędnie zinterpretowałeś tutaj niektóre pojęcia, ale z pewnością nie jesteś sam, jeśli tak, i osądzę cię, ponieważ tylko ty wiesz, w co naprawdę wierzysz. Błędna interpretacja implikuje pewną pewność, podczas gdy zadawanie pytań implikuje coś wręcz przeciwnego, a ten impuls do zadawania pytań, gdy niepewność jest dość godna pochwały i daleka od wszechobecności, niestety. Ta kwestia natury ludzkiej sprawia, że błędność naszych konwencji jest niestety nieszkodliwa i zasługuje na takie skargi, jak te, o których tu mowa. (Częściowo dziękuję!) Jednak twoja propozycja również nie jest do końca poprawna.

Ciekawe omówienie problemów związanych z $p$ wartości, w których uczestniczyłem, pojawiają się w tym pytaniu: Uwzględnianie utrwalonych poglądów na wartości p . W mojej odpowiedzi wymieniono kilka odniesień, które mogą okazać się przydatne w dalszej analizie problemów interpretacyjnych i alternatyw $p$ wartości. Ostrzegam: wciąż nie trafiłem na dno tej konkretnej króliczej nory , ale mogę przynajmniej powiedzieć, że jest bardzo głęboka . Wciąż się o tym uczę (w przeciwnym razie podejrzewam, że pisałbym z bardziej bayesowskiej perspektywy [edytuj]: a może z perspektywy ^NFSA ! ^{Hurlbert i Lombardi, 2009}⁾ , w najlepszym razie jestem słabym autorytetem i witam z zadowoleniem wszelkie poprawki lub opracowania, które inni mogą zaoferować do tego, co tu powiedziałem. Podsumowując, mogę jedynie stwierdzić, że prawdopodobnie istnieje matematycznie poprawna odpowiedź i może się zdarzyć, że większość ludzi pomyli się. Prawidłowa odpowiedź z pewnością nie przychodzi łatwo, ponieważ następujące odniesienia pokazują ...

PS Zgodnie z prośbą (w pewnym sensie ... Przyznaję, że tak naprawdę zajmuję się tym, zamiast pracować w nim), to pytanie jest lepszym odniesieniem do czasami jednolitego rozkładu $p$ biorąc pod uwagę zero: „ Dlaczego wartości p są równomiernie rozłożone w ramach hipotezy zerowej? ” Szczególnie interesujące są komentarze @ Whubera, które podnoszą klasę wyjątków. Jak to w pewnym stopniu dotyczy całej dyskusji, nie podążam za argumentami w 100%, nie mówiąc już o ich implikacjach, więc nie jestem pewien, czy te problemy z $p$ jednolitość dystrybucji jest w rzeczywistości wyjątkowa. Dalsza przyczyna głęboko zakorzenionego zamieszania statystycznego, obawiam się ...

Bibliografia

_{- Goodman, SN (1992). Komentarz na temat replikacji, wartości P i dowodów. Statystyka w medycynie, 11 (7), 875–879.

- Goodman, SN (2001). Z P -values i Bayesa: Skromna propozycja. Epidemiology, 12 (3), 295–297. Źródło: http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman, S. (2008). Brudny tuzin: dwanaście błędnych wyobrażeń o wartości P. Seminaria z hematologii, 45 (3), 135–140. Źródło: http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., i Greenberg, DA (2007). Brak replikacji badań asocjacyjnych: „pseudo-awarie” do replikacji? Genetics in Medicine, 9 (6), 325–331. Źródło: http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH i Lombardi, CM (2009). Ostateczne załamanie się ram teoretycznych decyzji Neymana-Pearsona i powstanie neoFisherii. Annales Zoologici Fennici, 46 (5), 311–349. Źródło: http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Lew, MJ (2013). Do P lub nie do P: O dowodowym charakterze wartości P i ich miejscu w wnioskach naukowych. arXiv: 1311.0081 [stat.ME]. Źródło:http://arxiv.org/abs/1311.0081 .

- Moyé, LA (2008). Bayesianie w badaniach klinicznych: Zasnąłem przy zmianie. Statystyka w medycynie, 27 (4), 469–482.

- Nuzzo, R. (2014, 12 lutego). Metoda naukowa: błędy statystyczne. Nature News, 506 (7487). Źródło: http://www.nature.com/news/scientific-method-statistic-errors-1.14700 .

- Wagenmakers, EJ (2007). Praktyczne rozwiązanie wszechobecnych problemów wartości p . Biuletyn i przegląd psychonomiczny, 14 (5), 779–804. Źródło: http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

— Nick Stauner
źródło

Nadal pracuję nad twoją bardzo dokładną odpowiedzią (dzięki za to), ale twoja wzmianka o „inwazji bayesowskiej” przypomniała mi o „bayesowskich w badaniach klinicznych: śpi na przełomie”, przedrukowanych tutaj jako rozdział 12 , który ja ” Też powoli owijam głowę.

— Andrew Klaassen

„Osiągnąłeś stronę niedostępną do przeglądania lub osiągnąłeś limit wyświetleń tej książki” ...?

— Nick Stauner

To niefortunne. Jeśli masz dostęp do dziennika, możesz go również znaleźć tutaj . Poszukiwanie frazy „bayesianie przełamują tradycyjne bariery w badaniach klinicznych” może również cię tam doprowadzić.

— Andrew Klaassen

Ostateczne załamanie się ram teoretycznych decyzji Neymana-Pearsona i powstanie neoFisherii zawiera również zabawną historię wartości p i atak na wykorzystanie analizy bayesowskiej w badaniach. Nie mogę powiedzieć, że rozumiem to wystarczająco dobrze, aby to ocenić, ale uważam, że dobrze jest przynajmniej zdawać sobie sprawę z poprawek obecnych entuzjazmów.

— Andrew Klaassen

@NickStauner Właśnie znalazłem tę dyskusję. Nie jest konieczne, aby co najmniej jedno konto było błędne, jeśli istnieje zestaw kont, które się nie zgadzają. Mogą być oparte na różnych modelach. [Jeśli grasz, powinieneś przeczytać książkę Billa Thompsona The Nature of Statistics Evidence (2005).] Nieśmiertelność, moje konto jest zdecydowanie słuszne ;-) (Chociaż tylko dziś rano dziennik został ponownie odrzucony.) Znalazłem gazetę Nuzzo, aby bądź nieostrożny i potencjalnie wprowadzający w błąd.

— Michael Lew