STRESZCZENIE: jeśli „hakowanie p” ma być szeroko rozumiane jako ścieżki rozwidlenia la Gelmana, odpowiedzią na to, jak powszechne jest, jest to, że jest niemal uniwersalny.
Andrew Gelman lubi pisać na ten temat i ostatnio publikuje na ten temat wiele artykułów na swoim blogu. Nie zawsze się z nim zgadzam, ale lubię swoją perspektywę na -hacking. Oto fragment wstępu do dokumentu Garden of Forking Paths (Gelman i Loken 2013; wersja ukazała się w American Scientist 2014; patrz także krótki komentarz Gelmana do oświadczenia ASA), podkreślając moje:p
Problem ten jest czasem nazywany „hakowaniem p” lub „stopniami wolności badacza” (Simmons, Nelson i Simonsohn, 2011). W niedawnym artykule mówiliśmy o „wyprawach na ryby [...]”. Zaczynamy jednak odczuwać, że termin „łowienie ryb” był niefortunny, ponieważ przywołuje obraz badacza próbującego porównania po porównaniu, rzucającego linę do jeziora wielokrotnie, aż do złapania ryby. Nie mamy powodu sądzić, że naukowcy regularnie to robią. Uważamy, że prawdziwa historia polega na tym, że badacze mogą przeprowadzić rozsądną analizę, biorąc pod uwagę swoje założenia i dane, ale gdyby dane okazały się inaczej, mogliby przeprowadzić inne analizy, które byłyby równie uzasadnione w takich okolicznościach.
Ubolewamy nad rozpowszechnieniem się terminów „łowienie ryb” i „hakowanie p” (a nawet „stopni swobody badaczy”) z dwóch powodów: po pierwsze, ponieważ gdy takie terminy są używane do opisu badania, istnieje myląca implikacja, że badacze świadomie testowali wiele różnych analiz na jednym zbiorze danych; a po drugie, ponieważ może to doprowadzić badaczy, którzy wiedzą, że nie wypróbowali wielu różnych analiz, do błędnego myślenia, że nie są tak silnie narażeni na problemy związane ze stopniami swobody badaczy. [...]
Naszym kluczowym punktem jest tutaj to, że możliwe jest przeprowadzenie wielu potencjalnych porównań w sensie analizy danych, której szczegóły są bardzo zależne od danych, bez przeprowadzania przez badacza jakiejkolwiek świadomej procedury połowów lub badania wielu wartości p .
Tak więc: Gelman nie lubi terminu hakowanie p, ponieważ sugeruje, że badacze aktywnie oszukują. Podczas gdy problemy mogą wystąpić po prostu dlatego, że badacze wybierają test do wykonania / zgłoszenia po spojrzeniu na dane, tj. Po przeprowadzeniu analizy eksploracyjnej.
Z pewnym doświadczeniem w pracy w biologii mogę śmiało powiedzieć, że wszyscy to robią. Wszyscy (łącznie ze mną) gromadzą pewne dane, opierając się jedynie na niejasnych hipotezach a priori, przeprowadzają szeroko zakrojone analizy eksploracyjne, przeprowadzają różne testy istotności, gromadzą więcej danych, uruchamiają i ponownie uruchamiają testy, a na koniec zgłaszają pewne wartości ostatecznym manuskrypcie. Wszystko to dzieje się bez aktywnego oszukiwania, głupiego zbierania wiśni w stylu xkcd-żelków i świadomego hakowania czegokolwiek.p
Jeśli więc „hakowanie p” należy rozumieć szeroko jako rozwidlające się ścieżki Gelmana, odpowiedzią na to, jak powszechne jest, jest to, że jest niemal uniwersalny.
Jedynymi wyjątkami, które przychodzą na myśl, są w pełni wstępnie zarejestrowane badania replikacji w psychologii lub w pełni zarejestrowane badania medyczne.
Konkretne dowody
Zabawne jest to, że niektórzy badacze badali, że wielu przyznało się do hakowania ( John i in. 2012, Pomiar rozpowszechnienia wątpliwych praktyk badawczych z zachętami do mówienia prawdy ):
Poza tym wszyscy słyszeli o tzw. „Kryzysie replikacji” w psychologii: ponad połowa ostatnich badań opublikowanych w najlepszych czasopismach psychologicznych nie powiela się ( Nosek i in. 2015, Szacowanie odtwarzalności nauk psychologicznych ). (To badanie było ostatnio ponownie na wszystkich blogach, ponieważ w wydaniu Science z marca 2016 r. Opublikowano Komentarz próbujący obalić Noska i in., A także odpowiedź Noska i in. Dyskusja była kontynuowana gdzie indziej, patrz post Andrew Gelmana i RetractionWatch post , do którego prowadzi. Grzecznie mówiąc, krytyka nie jest przekonująca).
Aktualizacja z listopada 2018 r .: Kaplan i Irvin, 2017, Prawdopodobieństwo nieważności dużych badań klinicznych NHLBI wzrosło w czasie.
PRozkłady w literaturze
Head i in. 2015 r
Nie słyszałem o Head et al. uczyć się wcześniej, ale teraz spędziłem trochę czasu na przeglądaniu otaczającej literatury. Przyjrzałem się również ich surowym danym .
Head i in. pobrałem wszystkie dokumenty Open Access z PubMed i wyodrębniłem wszystkie wartości p zgłoszone w tekście, otrzymując 2,7 mln wartości p. Spośród nich 1,1 mln zgłoszono jako a nie jako . Spośród nich Head i in. losowo przyjął jedną wartość p na papier, ale nie wydaje się to zmieniać rozkładu, więc oto jak wygląda rozkład wszystkich 1,1 mln wartości (od do ):p=ap<a00.06
Użyłem szerokości przedziału i wyraźnie widać wiele przewidywalnych zaokrągleń w raportowanych wartościach . Teraz Head i in. wykonaj następujące czynności: porównują liczbę wartości w przedziale i w przedziale ; poprzednia liczba okazuje się (znacznie) większa i traktują to jako dowód hakowania . Jeśli się zezuje, widać to na mojej figurze.0.0001pp(0.045,0.5)(0.04,0.045)p
Uważam to za wyjątkowo nieprzekonujące z jednego prostego powodu. Kto chce zgłaszać swoje wyniki przy ? W rzeczywistości wydaje się, że wiele osób robi dokładnie to, ale nadal wydaje się naturalne, że należy unikać tej niezadowalającej wartości granicznej i zgłaszać inną znaczącą cyfrę, np. (chyba że ). Tak więc pewien nadmiar wartości bliskich, ale nie równych można wytłumaczyć preferencjami zaokrąglania badacza.p=0.05p=0.048p=0.052p0.05
Poza tym efekt jest niewielki .
(Jedyny silny efekt, jaki widzę na tej figurze, to wyraźny spadek gęstości wartości zaraz po . Wyraźnie wynika to z błędu systematycznego publikacji).p0.05
Chyba że coś przeoczyłem, Head i in. nawet nie omawiajcie tego potencjalnego alternatywnego wyjaśnienia. Nie prezentują również histogramu wartości .p
Istnieje wiele artykułów krytykujących Head et al. W tym niepublikowanym rękopisie Hartgerink twierdzi, że Head i in. powinno zawierać i w ich stosunku (a jeśli miały one nie znalazły skutek). Nie jestem tego pewny; nie brzmi to zbyt przekonująco. Byłoby znacznie lepiej, gdybyśmy mogli jakoś sprawdzić rozkład „surowych” wartości bez żadnego zaokrąglania.p=0.04p=0.05p
Rozkłady -values bez zaokrąglaniap
W tym artykule PeerJ 2016 (przedruk opublikowany w 2015 r.) Ten sam Hartgerink i in. wyodrębnij wartości p z wielu artykułów w najlepszych czasopismach psychologicznych i zrób dokładnie to: obliczają dokładne wartości z podanych wartości statystycznych -, -, - itd .; ten rozkład jest wolny od jakichkolwiek zaokrąglających artefaktów i nie wykazuje żadnego wzrostu w kierunku 0,05 (rysunek 4):ptFχ2
Bardzo podobne podejście przyjmuje Krawczyk 2015 w PLoS One, który wyodrębnia 135 tys. Wartości z najlepszych czasopism o psychologii eksperymentalnej. Oto, jak wygląda rozkład zgłaszanych (po lewej) i ponownie obliczonych (po prawej) wartości :pp
Różnica jest uderzająca. Lewy histogram pokazuje niektóre dziwne rzeczy, które dzieją się wokół , ale na prawym zniknęły. Oznacza to, że te dziwne rzeczy wynikają z preferencji ludzi dotyczących zgłaszania wartości około a nie z powodu hakowania .p=0.05p≈0.05p
Mascicampo i Lalande
Wydaje się, że pierwszymi, którzy zauważyli domniemaną nadwyżkę wartości nieco poniżej 0,05, były Masicampo i Lalande 2012 , patrząc na trzy najlepsze czasopisma z psychologii:p
Wygląda to imponująco, ale Lakens 2015 ( preprint ) w opublikowanym komentarzu twierdzi, że wydaje się to imponujące tylko dzięki wprowadzającemu w błąd wykładniczemu dopasowaniu. Zobacz także Lakens 2015, na temat wyzwań związanych z wyciąganiem wniosków z wartości p nieco poniżej 0,05 i zawartych w nich odniesień.
Ekonomia
Brodeur i in. 2016 (link do przedruku z 2013 r.) To samo dotyczy literatury ekonomicznej. Przyjrzyj się trzem dziennikom ekonomicznym, wyodrębnij 50 000 wyników testu, przekonwertuj wszystkie z nich na wyniki (wykorzystując zgłoszone współczynniki i standardowe błędy, jeśli to możliwe i używając wartości jeśli tylko zostały zgłoszone) i uzyskaj następujące informacje:zp
Jest to nieco mylące, ponieważ małe wartości są po prawej stronie, a duże wartości - po lewej. Jak piszą autorzy w streszczeniu: „Rozkład wartości p wykazuje kształt wielbłąda z licznymi wartościami p powyżej 0,25” i „doliną między 0,25 a .10”. Twierdzą, że ta dolina jest oznaką czegoś podejrzanego, ale jest to tylko pośredni dowód. Może to być również po prostu wynikiem selektywnego raportowania, gdy duże wartości p powyżej 0,25 są zgłaszane jako pewne dowody braku efektu, ale wartości p między .1 a .25 nie są ani tu ani tam, i mają tendencję do być pominiętym. (Nie jestem pewien, czy ten efekt występuje w literaturze biologicznej, czy nie, ponieważ powyższe wykresy skupiają się na przedziale ).ppp < 0,05p<0.05
Fałszywie uspokajający?
Na podstawie wszystkich powyższych, mój wniosek jest taki, że nie widzę żadnych mocnych dowodów -hacking w rozkładów -value całej literaturze biologicznej / psychologiczny jako całości. Istnieje wiele dowodów selektywnego raportowania, publikacji uprzedzeń, zaokrąglając -values w dół do i innych zabawnych efektów zaokrąglania, ale nie zgadzam się z wnioskami głowy i wsp .: brak jest podejrzany guz poniżej .ppp0,05 0,050.050.05
Uri Simonsohn twierdzi, że jest to „fałszywie uspokajające” . Cóż, w rzeczywistości cytuje te dokumenty bezkrytycznie, ale zauważa, że „większość wartości p jest znacznie mniejsza” niż 0,05. Potem mówi: „To uspokajające, ale fałszywie uspokajające”. A oto dlaczego:
Jeśli chcemy wiedzieć, czy badacze hakują p swoich wyników, musimy zbadać wartości p powiązane z ich wynikami, te, które mogą chcieć p-hackować w pierwszej kolejności. Próbki, aby być obiektywnymi, muszą zawierać jedynie obserwacje z interesującej populacji.
Większość wartości p podanych w większości artykułów nie ma znaczenia dla strategicznego zachowania będącego przedmiotem zainteresowania. Zmienne towarzyszące, kontrole manipulacji, główne efekty w badaniach testujących interakcje itp. Włączając je, nie doceniamy hakowania p i przeceniamy wartość dowodową danych. Analizując wszystkie wartości p, zadajemy inne pytanie, mniej sensowne. Zamiast „Czy badacze hakują p, co badają?”, Pytamy „Czy naukowcy hakują wszystko?”
To ma sens. Spoglądanie na wszystkie zgłoszone wartości jest zbyt głośne. Papier krzywej Uri ( Simonsohn i in. 2013 ) ładnie pokazuje, co można zobaczyć, jeśli spojrzy się na starannie wybrane wartości krzywej. Wybrali 20 artykułów psychologicznych na podstawie niektórych podejrzanych słów kluczowych (a mianowicie autorzy tych artykułów zgłosili testy kontrolujące zmienną towarzyszącą i nie zgłosili tego, co się stanie bez kontroli dla niej), a następnie przyjęli tylko wartości , które testują główne ustalenia. Oto jak wygląda dystrybucja (po lewej):ppp ppp
Silne pochylenie w lewo sugeruje silne hakowanie .p
Wnioski
Powiedziałbym, że wiemy , że musi być dużo hakowania , głównie typu Forking Paths opisanego przez Gelmana; prawdopodobnie w takim stopniu, w jakim opublikowanych wartości nie można tak naprawdę uznać za wartość nominalną i czytelnik powinien je „zdyskontować” o znaczną część. Jednak takie podejście wydaje się dawać znacznie bardziej subtelne efekty niż zwykły wzrost ogólnego rozkładu wartości tuż poniżej i tak naprawdę nie można go wykryć za pomocą takiej tępej analizy.ppp 0,05 p0.05