Ile wiemy o hakowaniu p „na wolności”?


94

Wyrażenie p- hacking (także: „pogłębianie danych” , „szpiegowanie” lub „łowienie”) odnosi się do różnego rodzaju błędów statystycznych, w których wyniki stają się sztucznie statystycznie istotne. Istnieje wiele sposobów na uzyskanie „bardziej znaczącego” wyniku, w tym między innymi:

  • analizowanie tylko „interesującego” podzbioru danych , w którym znaleziono wzorzec;
  • niedostosowanie się do wielokrotnych testów , w szczególności testów post-hoc i niezgłoszenie przeprowadzonych testów, które nie były znaczące;
  • wypróbowanie różnych testów tej samej hipotezy , np. zarówno testu parametrycznego, jak i nieparametrycznego ( w tym wątku jest kilka dyskusji na ten temat ), ale zgłaszanie tylko najbardziej znaczących;
  • eksperymentowanie z włączaniem / wyłączaniem punktów danych , aż do uzyskania pożądanego rezultatu. Jedna z okazji pojawia się, gdy „wartości odstające od czyszczenia danych”, ale także przy zastosowaniu niejednoznacznej definicji (np. W badaniu ekonometrycznym „krajów rozwiniętych”, różne definicje dają różne zestawy krajów) lub jakościowych kryteriów włączenia (np. W metaanalizie , może to być precyzyjnie wyważony argument, czy metodologia danego badania jest wystarczająco solidna, aby go uwzględnić);
  • poprzedni przykład dotyczy opcjonalnego zatrzymania , tj. analizy zestawu danych i podjęcia decyzji, czy gromadzić więcej danych, czy też nie, w zależności od zebranych danych („jest to prawie znaczące, zmierzmy jeszcze trzech studentów!”) bez uwzględnienia tego w analizie;
  • eksperymenty podczas dopasowywania modeli , w szczególności towarzyszące zmienne towarzyszące, ale także dotyczące transformacji danych / formy funkcjonalnej.

Więc wiemy, że hakowanie p można wykonać. Jest często wymieniany jako jeden z „niebezpieczeństw wartości p i został wspomniany w raporcie ASA na temat istotności statystycznej, omawianym tutaj w Cross Validated , więc wiemy również, że jest to zła rzecz. Chociaż pewne wątpliwe motywacje i (szczególnie w konkursie na publikację akademicką) zachęty przynoszą efekt przeciwny do zamierzonego, podejrzewam, że trudno jest zorientować się, dlaczego tak się dzieje, czy to umyślne nadużycia, czy zwykła ignorancja. Ktoś zgłaszający p- wartości z regresji krokowej (ponieważ znajduje procedury krokowe „produkuje dobre modele”, ale nie zdaje sobie sprawy z rzekomego p-wartości są unieważnione) jest w tym drugim obozie, ale efekt jest wciąż p- hakowanie pod ostatnim z moich punktów powyżej.

Z pewnością istnieją dowody na to, że „ hacking p ” jest „tam”, np. Head i wsp. (2015) szukają znaków ostrzegawczych infekujących literaturę naukową, ale jaki jest obecny stan naszych dowodów na jego temat? Wiem, że podejście przyjęte przez Heada i in. Nie obyło się bez kontrowersji, więc obecny stan literatury lub ogólne myślenie w środowisku akademickim byłoby interesujące. Na przykład, czy mamy pojęcie o:

  • Jak powszechne jest to zjawisko i w jakim stopniu możemy odróżnić jego występowanie od stronniczości publikacji ? (Czy to rozróżnienie ma w ogóle znaczenie?)
  • Czy efekt jest szczególnie ostry na granicy ? Czy na przykład obserwuje się podobne efekty przy , czy też widzimy wpływ na całe zakresy wartości p ?p0.05p0.01
  • Czy wzorce hakowania p są różne w różnych dziedzinach akademickich?
  • Czy mamy pojęcie, które z mechanizmów hakowania p (niektóre z nich wymieniono w punktach powyżej) są najczęstsze? Czy niektóre formy okazały się trudniejsze do wykrycia niż inne, ponieważ są „lepiej zamaskowane”?

Bibliografia

Head, ML, Holman, L., Lanfear, R., Kahn, AT i Jennions, MD (2015). Zakres i konsekwencje p- hakowania w nauce . PLoS Biol , 13 (3), e1002106.


6
Twoje ostatnie pytanie jest dobrym pomysłem na badanie: daj surowe dane grupie badaczy z różnych dziedzin, wyposaż je w SPSS (lub cokolwiek, z czego korzystają), a następnie zapisz, co robią, konkurując ze sobą o bardziej znaczące wyniki .
Tim

1
Można by to zrobić, gdyby badani nie wiedzieli, że to się dzieje, używając historii kaggle. Nie publikują, ale starają się w każdy możliwy sposób trafić w magiczną liczbę.
EngrStudent

1
Czy crossvalidated ma jakieś kolekcje (np. Wiki społeczności) prostych przykładów symulacji hakowania p? Wyobrażam sobie przykłady zabawek, w których symulowany badacz reaguje na „marginalnie znaczące” wyniki, zbierając więcej danych, eksperymenty ze specyfikacjami regresji itp.
Adrian

2
@Adrian CV jest tylko Q & A strona, nie posiada żadnych danych lub kodu, nie ma żadnych ukrytych repozytorium - wszystko można znaleźć w odpowiedziach jest twoje na licencji CC :) To pytanie wydaje się być pytanie o zbieranie takich przykładów.
Tim

1
@Tim, oczywiście, nie wyobrażałem sobie żadnych repozytoriów ukrytego kodu - tylko fragmenty kodu zawarte w odpowiedziach. Na przykład ktoś może zapytać „czym jest hakowanie p?”, A ktoś może dołączyć do swojej odpowiedzi symulację zabawki R. Czy właściwe byłoby udzielenie odpowiedzi na bieżące pytanie za pomocą przykładów kodu? „Ile wiemy” to bardzo szerokie pytanie.
Adrian

Odpowiedzi:


76

STRESZCZENIE: jeśli „hakowanie p” ma być szeroko rozumiane jako ścieżki rozwidlenia la Gelmana, odpowiedzią na to, jak powszechne jest, jest to, że jest niemal uniwersalny.


Andrew Gelman lubi pisać na ten temat i ostatnio publikuje na ten temat wiele artykułów na swoim blogu. Nie zawsze się z nim zgadzam, ale lubię swoją perspektywę na -hacking. Oto fragment wstępu do dokumentu Garden of Forking Paths (Gelman i Loken 2013; wersja ukazała się w American Scientist 2014; patrz także krótki komentarz Gelmana do oświadczenia ASA), podkreślając moje:p

Problem ten jest czasem nazywany „hakowaniem p” lub „stopniami wolności badacza” (Simmons, Nelson i Simonsohn, 2011). W niedawnym artykule mówiliśmy o „wyprawach na ryby [...]”. Zaczynamy jednak odczuwać, że termin „łowienie ryb” był niefortunny, ponieważ przywołuje obraz badacza próbującego porównania po porównaniu, rzucającego linę do jeziora wielokrotnie, aż do złapania ryby. Nie mamy powodu sądzić, że naukowcy regularnie to robią. Uważamy, że prawdziwa historia polega na tym, że badacze mogą przeprowadzić rozsądną analizę, biorąc pod uwagę swoje założenia i dane, ale gdyby dane okazały się inaczej, mogliby przeprowadzić inne analizy, które byłyby równie uzasadnione w takich okolicznościach.

Ubolewamy nad rozpowszechnieniem się terminów „łowienie ryb” i „hakowanie p” (a nawet „stopni swobody badaczy”) z dwóch powodów: po pierwsze, ponieważ gdy takie terminy są używane do opisu badania, istnieje myląca implikacja, że ​​badacze świadomie testowali wiele różnych analiz na jednym zbiorze danych; a po drugie, ponieważ może to doprowadzić badaczy, którzy wiedzą, że nie wypróbowali wielu różnych analiz, do błędnego myślenia, że ​​nie są tak silnie narażeni na problemy związane ze stopniami swobody badaczy. [...] Naszym kluczowym punktem jest tutaj to, że możliwe jest przeprowadzenie wielu potencjalnych porównań w sensie analizy danych, której szczegóły są bardzo zależne od danych, bez przeprowadzania przez badacza jakiejkolwiek świadomej procedury połowów lub badania wielu wartości p .

Tak więc: Gelman nie lubi terminu hakowanie p, ponieważ sugeruje, że badacze aktywnie oszukują. Podczas gdy problemy mogą wystąpić po prostu dlatego, że badacze wybierają test do wykonania / zgłoszenia po spojrzeniu na dane, tj. Po przeprowadzeniu analizy eksploracyjnej.

Z pewnym doświadczeniem w pracy w biologii mogę śmiało powiedzieć, że wszyscy to robią. Wszyscy (łącznie ze mną) gromadzą pewne dane, opierając się jedynie na niejasnych hipotezach a priori, przeprowadzają szeroko zakrojone analizy eksploracyjne, przeprowadzają różne testy istotności, gromadzą więcej danych, uruchamiają i ponownie uruchamiają testy, a na koniec zgłaszają pewne wartości ostatecznym manuskrypcie. Wszystko to dzieje się bez aktywnego oszukiwania, głupiego zbierania wiśni w stylu xkcd-żelków i świadomego hakowania czegokolwiek.p

Jeśli więc „hakowanie p” należy rozumieć szeroko jako rozwidlające się ścieżki Gelmana, odpowiedzią na to, jak powszechne jest, jest to, że jest niemal uniwersalny.

Jedynymi wyjątkami, które przychodzą na myśl, są w pełni wstępnie zarejestrowane badania replikacji w psychologii lub w pełni zarejestrowane badania medyczne.

Konkretne dowody

Zabawne jest to, że niektórzy badacze badali, że wielu przyznało się do hakowania ( John i in. 2012, Pomiar rozpowszechnienia wątpliwych praktyk badawczych z zachętami do mówienia prawdy ):

John i in

Poza tym wszyscy słyszeli o tzw. „Kryzysie replikacji” w psychologii: ponad połowa ostatnich badań opublikowanych w najlepszych czasopismach psychologicznych nie powiela się ( Nosek i in. 2015, Szacowanie odtwarzalności nauk psychologicznych ). (To badanie było ostatnio ponownie na wszystkich blogach, ponieważ w wydaniu Science z marca 2016 r. Opublikowano Komentarz próbujący obalić Noska i in., A także odpowiedź Noska i in. Dyskusja była kontynuowana gdzie indziej, patrz post Andrew Gelmana i RetractionWatch post , do którego prowadzi. Grzecznie mówiąc, krytyka nie jest przekonująca).

Aktualizacja z listopada 2018 r .: Kaplan i Irvin, 2017, Prawdopodobieństwo nieważności dużych badań klinicznych NHLBI wzrosło w czasie.

wprowadź opis zdjęcia tutaj


PRozkłady w literaturze

Head i in. 2015 r

Nie słyszałem o Head et al. uczyć się wcześniej, ale teraz spędziłem trochę czasu na przeglądaniu otaczającej literatury. Przyjrzałem się również ich surowym danym .

Head i in. pobrałem wszystkie dokumenty Open Access z PubMed i wyodrębniłem wszystkie wartości p zgłoszone w tekście, otrzymując 2,7 mln wartości p. Spośród nich 1,1 mln zgłoszono jako a nie jako . Spośród nich Head i in. losowo przyjął jedną wartość p na papier, ale nie wydaje się to zmieniać rozkładu, więc oto jak wygląda rozkład wszystkich 1,1 mln wartości (od do ):p=ap<a00.06

Rozkład wartości p w literaturze

Użyłem szerokości przedziału i wyraźnie widać wiele przewidywalnych zaokrągleń w raportowanych wartościach . Teraz Head i in. wykonaj następujące czynności: porównują liczbę wartości w przedziale i w przedziale ; poprzednia liczba okazuje się (znacznie) większa i traktują to jako dowód hakowania . Jeśli się zezuje, widać to na mojej figurze.0.0001pp(0.045,0.5)(0.04,0.045)p

Uważam to za wyjątkowo nieprzekonujące z jednego prostego powodu. Kto chce zgłaszać swoje wyniki przy ? W rzeczywistości wydaje się, że wiele osób robi dokładnie to, ale nadal wydaje się naturalne, że należy unikać tej niezadowalającej wartości granicznej i zgłaszać inną znaczącą cyfrę, np. (chyba że ). Tak więc pewien nadmiar wartości bliskich, ale nie równych można wytłumaczyć preferencjami zaokrąglania badacza.p=0.05p=0.048p=0.052p0.05

Poza tym efekt jest niewielki .

(Jedyny silny efekt, jaki widzę na tej figurze, to wyraźny spadek gęstości wartości zaraz po . Wyraźnie wynika to z błędu systematycznego publikacji).p0.05

Chyba że coś przeoczyłem, Head i in. nawet nie omawiajcie tego potencjalnego alternatywnego wyjaśnienia. Nie prezentują również histogramu wartości .p

Istnieje wiele artykułów krytykujących Head et al. W tym niepublikowanym rękopisie Hartgerink twierdzi, że Head i in. powinno zawierać i w ich stosunku (a jeśli miały one nie znalazły skutek). Nie jestem tego pewny; nie brzmi to zbyt przekonująco. Byłoby znacznie lepiej, gdybyśmy mogli jakoś sprawdzić rozkład „surowych” wartości bez żadnego zaokrąglania.p=0.04p=0.05p

Rozkłady -values bez zaokrąglaniap

W tym artykule PeerJ 2016 (przedruk opublikowany w 2015 r.) Ten sam Hartgerink i in. wyodrębnij wartości p z wielu artykułów w najlepszych czasopismach psychologicznych i zrób dokładnie to: obliczają dokładne wartości z podanych wartości statystycznych -, -, - itd .; ten rozkład jest wolny od jakichkolwiek zaokrąglających artefaktów i nie wykazuje żadnego wzrostu w kierunku 0,05 (rysunek 4):ptFχ2

Papier Hartgerink PeerJ

Bardzo podobne podejście przyjmuje Krawczyk 2015 w PLoS One, który wyodrębnia 135 tys. Wartości z najlepszych czasopism o psychologii eksperymentalnej. Oto, jak wygląda rozkład zgłaszanych (po lewej) i ponownie obliczonych (po prawej) wartości :pp

Krawczyk

Różnica jest uderzająca. Lewy histogram pokazuje niektóre dziwne rzeczy, które dzieją się wokół , ale na prawym zniknęły. Oznacza to, że te dziwne rzeczy wynikają z preferencji ludzi dotyczących zgłaszania wartości około a nie z powodu hakowania .p=0.05p0.05p

Mascicampo i Lalande

Wydaje się, że pierwszymi, którzy zauważyli domniemaną nadwyżkę wartości nieco poniżej 0,05, były Masicampo i Lalande 2012 , patrząc na trzy najlepsze czasopisma z psychologii:p

Mascicampo i Lalande

Wygląda to imponująco, ale Lakens 2015 ( preprint ) w opublikowanym komentarzu twierdzi, że wydaje się to imponujące tylko dzięki wprowadzającemu w błąd wykładniczemu dopasowaniu. Zobacz także Lakens 2015, na temat wyzwań związanych z wyciąganiem wniosków z wartości p nieco poniżej 0,05 i zawartych w nich odniesień.

Ekonomia

Brodeur i in. 2016 (link do przedruku z 2013 r.) To samo dotyczy literatury ekonomicznej. Przyjrzyj się trzem dziennikom ekonomicznym, wyodrębnij 50 000 wyników testu, przekonwertuj wszystkie z nich na wyniki (wykorzystując zgłoszone współczynniki i standardowe błędy, jeśli to możliwe i używając wartości jeśli tylko zostały zgłoszone) i uzyskaj następujące informacje:zp

Brodeur

Jest to nieco mylące, ponieważ małe wartości są po prawej stronie, a duże wartości - po lewej. Jak piszą autorzy w streszczeniu: „Rozkład wartości p wykazuje kształt wielbłąda z licznymi wartościami p powyżej 0,25” i „doliną między 0,25 a .10”. Twierdzą, że ta dolina jest oznaką czegoś podejrzanego, ale jest to tylko pośredni dowód. Może to być również po prostu wynikiem selektywnego raportowania, gdy duże wartości p powyżej 0,25 są zgłaszane jako pewne dowody braku efektu, ale wartości p między .1 a .25 nie są ani tu ani tam, i mają tendencję do być pominiętym. (Nie jestem pewien, czy ten efekt występuje w literaturze biologicznej, czy nie, ponieważ powyższe wykresy skupiają się na przedziale ).ppp < 0,05p<0.05


Fałszywie uspokajający?

Na podstawie wszystkich powyższych, mój wniosek jest taki, że nie widzę żadnych mocnych dowodów -hacking w rozkładów -value całej literaturze biologicznej / psychologiczny jako całości. Istnieje wiele dowodów selektywnego raportowania, publikacji uprzedzeń, zaokrąglając -values w dół do i innych zabawnych efektów zaokrąglania, ale nie zgadzam się z wnioskami głowy i wsp .: brak jest podejrzany guz poniżej .ppp0,05 0,050.050.05

Uri Simonsohn twierdzi, że jest to „fałszywie uspokajające” . Cóż, w rzeczywistości cytuje te dokumenty bezkrytycznie, ale zauważa, że ​​„większość wartości p jest znacznie mniejsza” niż 0,05. Potem mówi: „To uspokajające, ale fałszywie uspokajające”. A oto dlaczego:

Jeśli chcemy wiedzieć, czy badacze hakują p swoich wyników, musimy zbadać wartości p powiązane z ich wynikami, te, które mogą chcieć p-hackować w pierwszej kolejności. Próbki, aby być obiektywnymi, muszą zawierać jedynie obserwacje z interesującej populacji.

Większość wartości p podanych w większości artykułów nie ma znaczenia dla strategicznego zachowania będącego przedmiotem zainteresowania. Zmienne towarzyszące, kontrole manipulacji, główne efekty w badaniach testujących interakcje itp. Włączając je, nie doceniamy hakowania p i przeceniamy wartość dowodową danych. Analizując wszystkie wartości p, zadajemy inne pytanie, mniej sensowne. Zamiast „Czy badacze hakują p, co badają?”, Pytamy „Czy naukowcy hakują wszystko?”

To ma sens. Spoglądanie na wszystkie zgłoszone wartości jest zbyt głośne. Papier krzywej Uri ( Simonsohn i in. 2013 ) ładnie pokazuje, co można zobaczyć, jeśli spojrzy się na starannie wybrane wartości krzywej. Wybrali 20 artykułów psychologicznych na podstawie niektórych podejrzanych słów kluczowych (a mianowicie autorzy tych artykułów zgłosili testy kontrolujące zmienną towarzyszącą i nie zgłosili tego, co się stanie bez kontroli dla niej), a następnie przyjęli tylko wartości , które testują główne ustalenia. Oto jak wygląda dystrybucja (po lewej):ppp ppp

Simonsohn

Silne pochylenie w lewo sugeruje silne hakowanie .p

Wnioski

Powiedziałbym, że wiemy , że musi być dużo hakowania , głównie typu Forking Paths opisanego przez Gelmana; prawdopodobnie w takim stopniu, w jakim opublikowanych wartości nie można tak naprawdę uznać za wartość nominalną i czytelnik powinien je „zdyskontować” o znaczną część. Jednak takie podejście wydaje się dawać znacznie bardziej subtelne efekty niż zwykły wzrost ogólnego rozkładu wartości tuż poniżej i tak naprawdę nie można go wykryć za pomocą takiej tępej analizy.ppp 0,05 p0.05


4
simply because the researches chose what test to perform/report after looking at the dataTak; i problem jest nieunikniony, ponieważ obosieczny. Kiedy wybierana jest lepsza metoda dla danych - czy jest to przeładowanie tej konkretnej próby czy spotkanie technicznych wezwań tej populacji? Lub - usuwając wartości odstające - oszukuje populację, czy ją odzyskuje? Kto ostatecznie powie?
ttnphns,

Najbardziej oczekiwaną przeze mnie odpowiedzią była być może krótka reprezentacja aktualnej literatury, kilka wskazówek, czy artykuł Head et al jest uczciwym podsumowaniem najnowszego myślenia itp. W ogóle nie spodziewałem się takiej odpowiedzi. Ale myślę, że to świetnie, a myśli Gelmana i praktyczne spostrzeżenia są szczególnie pomocne. Kiedy napisałem pytanie, miałem na myśli podobne rzeczy do @ttnphns (być może to pokazuje, rozważałem nawet włączenie słowa „przeuczenie”.)
Silverfish,

Niemniej jednak, oprócz ogólnego i nieuniknionego złego samopoczucia, że ​​„jak nauka działa w praktyce”, stanowiącego niedoskonałe dopasowanie do założeń testów statystycznych, zastanawiam się, czy ta straszna „mroczna sztuka złośliwych hakerów p” naprawdę istnieje i jeśli tak, to jak daleko sięga. Zdecydowanie istnieją silne (złe) zachęty, aby go zachęcić.
Silverfish,

2
Zainteresował mnie ten Head i in. paper, @Silverfish, więc muszę wyznać, że teraz, zamiast pracować, przeglądam niektóre artykuły krytykujące wyniki Head et al., a nawet pobrałem ich surowe dane ... Ojej.
ameba,

2
+1. Najnowszy artykuł na blogu Gelman ( andrewgelman.com/2016/03/09/... ) dotyczy wielu kwestii i podkreśla interesującą odpowiedź grupy, która podjęła próbę replikacji, a następnie została ostro skrytykowana przez autorów oryginalnego badania: retractionwatch.com/ 2016/03/07 /…
Wayne

22

Wykresy lejkowe były ogromną innowacją statystyczną, która sprawiła, że ​​metaanaliza stała się poważna. Zasadniczo wykres lejkowy pokazuje znaczenie kliniczne i statystyczne na tym samym wykresie. Idealnie tworzyłyby kształt lejka. Jednak kilka metaanaliz wytworzyło wykresy lejkowe o silnym kształcie bimodalnym, w których badacze (lub wydawcy) selektywnie wstrzymywali wyniki, które były zerowe. W rezultacie trójkąt staje się szerszy, ponieważ w mniejszych badaniach o mniejszej mocy zastosowano bardziej drastyczne metody, aby „zachęcić” wyniki do osiągnięcia znaczenia statystycznego. Zespół Cochrane Report ma to do powiedzenia na ich temat .

Jeśli występuje odchylenie, na przykład ponieważ mniejsze badania bez statystycznie znaczących efektów (pokazane jako otwarte kółka na ryc. 10.4.a, panel A) pozostają niepublikowane, doprowadzi to do asymetrycznego wyglądu wykresu lejkowego ze szczeliną w dolnym rogu wykres (panel B). W tej sytuacji efekt obliczony w metaanalizie będzie miał tendencję do przeszacowania efektu interwencji (Egger 1997a, Villar 1997). Im bardziej wyraźna asymetria, tym bardziej prawdopodobne jest, że wielkość odchylenia będzie znaczna.

Pierwszy wykres pokazuje symetryczny wykres przy braku stronniczości. Drugi pokazuje asymetryczny wykres w obecności zgłaszającego błędu. Trzeci pokazuje asymetryczny wykres w obecności uprzedzeń, ponieważ niektóre mniejsze badania (otwarte kółka) mają niższą jakość metodologiczną, a zatem dają przesadzone szacunki efektów interwencji.

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Podejrzewam, że większość autorów nie zdaje sobie sprawy z metod, których używają do p-hackowania. Nie śledzą ogólnej liczby modeli, które pasują, stosując różne kryteria wykluczania lub wybierając różne zmienne dopasowania za każdym razem. Gdybym jednak musiał zlecić prosty proces, chciałbym, aby dopasować całkowitą liczbę modeli. Nie oznacza to, że mogą istnieć uzasadnione powody do ponownego uruchomienia modeli, na przykład właśnie przeprowadziliśmy analizę Alzheimera, nie wiedząc, że w próbce zebrano ApoE. Jajko na mojej twarzy, przerobiliśmy modele.


4
Podoba mi się, że podkreślasz, że „śledczy (lub wydawcy) selektywnie wstrzymywali wyniki, które były zerowe”. Biorąc pod uwagę, że nie odrzucono żadnej publikacji null , błąd niekoniecznie dotyczy wyłącznie badaczy.
Cliff AB,

2
Jednym z aspektów mojego pytania było rozróżnienie między „hakowaniem p” i „stronniczością publikacji” - ta odpowiedź w pewnym sensie łączy te dwa. Czy mam rację, interpretując to, co mówisz w ten sposób, tj. „Uprzedzenie publikacji jest w istocie formą hakowania p, ale przez wydawcę”?
Silverfish,

1
@Silverfish Odchylenie publikacji, zgodnie z wcześniejszym komentarzem, może być kierowane przez autorów lub wydawców. Ale tak, to zdecydowanie hakowanie . Wykresy lejkowe mogły zostać zastosowane do opublikowanych badań, ale mają one zastosowanie w każdym otoczeniu, w którym „replikacja naukowa” zaczyna wykazywać rozbieżności. Potwierdzające próby leków lub wdrożenie polityk biznesowych w wielu centrach lub hurtowniach, bez względu na to. Ilekroć masz do czynienia z replikacjami, wykres lejkowy może dostarczyć dowodów na hakowanie , pokazując luki, w których powinny spaść wyniki zerowe. ppp
AdamO,

2
Hmm Najpierw chciałem zaprotestować i twierdzić, że stronniczość publikacji różni się od hakowania p (podobnie, myślę, podobnie jak @Silverfish obramował również jego Q), ale potem zdałem sobie sprawę, że trudniej jest narysować granicę, niż początkowo myślałem. Wykonywanie wielu porównań w stylu żelków i zgłaszanie tylko tych istotnych (hakowanie p?) Nie różni się bardzo od wykonywania wielu badań i zgłaszania tylko tych istotnych (które z definicji są stronnicze w publikacji). Mimo to hakowanie p w sensie masowania danych, dopóki nie uzyskają p <0,05, wydaje mi się wystarczająco różne dla mnie.
ameba

2
@amoeba Miałem te same obawy, ale po przeczytaniu pytania OP zdałem sobie sprawę, że dotyczy to konsekwencji hakowania na „końcu kiełbasy”. Większość metod hakowania jest zwykle pomijana w raportach. A zatem, będąc zaślepieni na to, co robi statystyk, jak pogodzić różnice? Potrzebujemy niezależnych prób powtórzenia i potwierdzenia ustaleń. ppp
AdamO,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.