Dlaczego od samego początku nie stosuje się wielu poprawek hipotez we wszystkich eksperymentach?


24

Wiemy, że musimy zastosować korekty podobne do Benjaminiego Hochberga do testowania wielu hipotez w eksperymentach opartych na jednym zestawie danych, w celu kontroli częstotliwości fałszywych odkryć, w przeciwnym razie wszystkie eksperymenty, które dadzą pozytywny wynik, mogą być fałszywe.

Ale dlaczego nie stosujemy tej samej zasady do wszystkich eksperymentów od samego początku, niezależnie od tego, skąd pochodzą dane?

W końcu ponad połowa opublikowanych wyników naukowych, które są uważane za „znaczące”, są obecnie znane jako fałszywe i nieodtwarzalne, i nie ma powodu, dla którego tak łatwo nie byłoby tak w 100%. Ponieważ naukowcy mają tendencję do publikowania wyników pozytywnych, nie mamy pojęcia o liczbie wyników negatywnych, więc nie mamy pojęcia, czy to, co publikujemy, jest zawsze fałszywie dodatnie - wyniki pozytywne, które pojawiły się przypadkowo w ramach hipotezy zerowej. Tymczasem nie ma nic do powiedzenia, że ​​matematyka kryjąca się za wieloma poprawkami do testowania hipotez powinna mieć zastosowanie tylko do wyników z tego samego zestawu danych, a nie do wyników wszystkich danych eksperymentalnych zebranych w czasie.

Wydaje się, że cała nauka stała się jedną wielką wyprawą wędkarską opartą na fałszywych lub słabych hipotezach, więc jak możemy to kontrolować?

Jak możemy kontrolować współczynnik fałszywych odkryć, jeśli wszystko, co kiedykolwiek publikujemy, to uzyskane wyniki niezależne bez zastosowania korekty do testowania wielu hipotez we wszystkich dotychczasowych eksperymentach?

Czy można kontrolować częstotliwość fałszywych odkryć bez zastosowania takiej korekty?


2
Obowiązuje twoje pytanie meta.stats.stackexchange.com/questions/3049/... Łączy to kilka kontrowersyjnych (w niektórych przypadkach bardzo przesadzonych) stwierdzeń z kilkoma dużymi pytaniami. Myślę, że jest to sprzeczne z konsensu porad udzielonych już wam.
Nick Cox,

3
Przepraszam, nie wiem do jakich odpowiedzi się odnosisz: nie widzę tu żadnych referencji. Nie głosuję za zamknięciem, ani (naturalnie) nie mam ochoty ani mocy, by powstrzymywać ludzi od odpowiedzi. Ale na przykład „od zarania dziejów” jest małym przykładem bezcelowej przesady, a na twoim poście jest jeszcze kilka innych. Prowokacja sama w sobie, z mojego doświadczenia z tą stroną, sama nie pomoże w podstawowym pytaniu. Czytelnicy muszą zdjąć styl z treści.
Nick Cox,

3
Dzięki za zaproszenie, ale życie jest krótkie. Pozwolę, aby moje główne odniesienie do wątku meta było moim głównym punktem. Wyraziłem swoją opinię na temat stylu i treści, które mogą się tutaj oprzeć lub upaść.
Nick Cox,

9
Jeśli robię nauki, nie mam dużo opieki, co fałszywe odkrycia ty wykonany. Rzeczywiście, w odniesieniu do podejmowania określonego twierdzenia naukowe, ja może nie dużo opieki, co inne fałszywe odkrycia I wykonany. Jeśli nie zajmuję się nauką, mogę nawet nie przejmować się innymi fałszywymi odkryciami, które dokonałem w tej konkretnej analizie - ponieważ jeśli wybiorę mój poziom błędu I typu na podstawie względnych kosztów dwóch rodzajów błędów, mam już wybrałem kompromis między nimi i nie powinien w ogóle korygować wielu porównań.
Glen_b

2
Na szczęście inni przedstawili poglądy podobne do moich z przekonaniem i jasnością. Jako dodatkowy komentarz odradzam łączenie nauki (cokolwiek, co ma jakąś trwałą wartość) z jej literaturą. Literatura zawodzi na wiele sposobów: niejasność, trywialność, błędy logiczne itp. W streszczeniu wszyscy są zaniepokojeni myślą o wszystkich opublikowanych testach fałszywie dodatnich, ale trzeba wierzyć i działać, aby osiągnąć trwałe efekty. (Jeśli jest to próba narkotykowa, to może być wielka sprawa.) Jest więc wiele rzeczy do zmartwienia, ale nie sądzę, że nauka jest skazana na niepowodzenie.
Nick Cox,

Odpowiedzi:


20

Byłby to oczywiście koszmar absolutny do zrobienia w praktyce, ale załóżmy, że da się to zrobić: mianujemy sułtana statystycznego i każdy, kto przeprowadzi test hipotez, zgłasza swoje surowe wartości dla tego despota. Wykonuje jakąś globalną (dosłownie) korektę wielokrotnych porównań i odpowiada poprawionymi wersjami.p

Czy wprowadziłoby to złoty wiek nauki i rozumu? Nie, prawdopodobnie nie.


t
H.0: Grupy mają ten sam środek.H.ZA: Grupy mają różne środki.
H.0H.0hipoteza jest w pewnym sensie „nudna”, a badacze zazwyczaj zajmują się unikaniem sytuacji „fałszywie pozytywnej”, w której twierdzą, że znaleźli różnicę między grupami, w których żadna z nich tak naprawdę nie istnieje. Dlatego wyniki nazywamy „znaczącymi” tylko wtedy, gdy wydają się mało prawdopodobne w ramach hipotezy zerowej, a zgodnie z konwencją próg niewiarygodności jest ustalony na 5%.

H.0

Różne podejścia wielokrotnej korekty mają pomóc ci wrócić do nominalnego poziomu błędu, który już wybrałeś do tolerowania dla poszczególnych testów. Robią to na nieco inne sposoby. Metody kontrolujące rodzinny wskaźnik błędów , takie jak procedury Bonferroniego , Sidaka i Holma , mówią: „Chciałeś 5% szansy na błąd w jednym teście, więc upewnimy się , że nie ma więcej niż 5 % szans na popełnienie błędów we wszystkich testach. ” Metody kontrolujące współczynnik fałszywych odkryćzamiast tego powiedz „Najwyraźniej nie masz racji, że do 5% czasu przeprowadzasz pojedynczy test, więc upewnimy się, że nie więcej niż 5% twoich„ połączeń ”jest błędnych podczas wykonywania wielu testów”. (Zobacz różnicę?)


Załóżmy teraz, że próbujesz kontrolować rodzinny poziom błędów wszystkich uruchomionych testów hipotez. Mówisz zasadniczo, że chcesz <5% szansy na fałszywe odrzucenie jakiejkolwiek hipotezy zerowej, kiedykolwiek. To ustanawia niemożliwie rygorystyczny próg, a wnioskowanie byłoby skutecznie bezużyteczne, ale istnieje jeszcze bardziej palący problem: twoja globalna korekta oznacza, że ​​testujesz absolutnie bezsensowne „złożone hipotezy”, takie jak

H.1:Lek XYZ zmienia liczbę komórek T. Winogrona rosną lepiej na niektórych polach Mężczyźni i kobiety jedzą różne ilości lodów

Dzięki korektom współczynnika fałszywego odkrywania problem liczbowy nie jest tak poważny, ale filozoficznie jest bałaganem. Zamiast tego sensowne jest zdefiniowanie „rodziny” powiązanych testów, takich jak lista genów kandydujących podczas badania genomiki lub zestaw przedziałów czasowo-częstotliwościowych podczas analizy spektralnej. Dostosowanie rodziny do konkretnego pytania pozwala właściwie zinterpretować błąd typu I związany bezpośrednio. Na przykład, możesz spojrzeć na zestaw wartości p skorygowanych FWER z własnych danych genomowych i powiedzieć: „Istnieje <5% szans, że którykolwiek z tych genów jest fałszywie dodatni”. Jest to o wiele lepsze niż mglista gwarancja obejmująca wnioski dokonywane przez osoby, na których ci nie zależy, na tematy, na których ci nie zależy.

Drugą stroną tego jest to, że odpowiedni wybór „rodziny” jest dyskusyjny i nieco subiektywny (czy wszystkie geny są jedną rodziną, czy mogę po prostu rozważyć kinazy?), Ale powinien być poinformowany o twoim problemie i nie wierzę nikomu poważnie opowiada się za definiowaniem rodzin niemal tak szeroko.


Co powiesz na Bayes?

Analiza bayesowska oferuje spójną alternatywę dla tego problemu - jeśli chcesz odejść nieco od frameworku błędów Frequentist Type I / Type II. Zaczynamy od jakiegoś niezobowiązującego wcześniej ... cóż ... wszystkiego. Za każdym razem, gdy czegoś się uczymy, informacja ta jest łączona z wcześniejszym wygenerowaniem rozkładu bocznego, który z kolei staje się priorytetem przy następnym nauczeniu się czegoś. Daje to spójną regułę aktualizacji i można porównać różne hipotezy dotyczące konkretnych rzeczy, obliczając współczynnik Bayesa między dwiema hipotezami. Można przypuszczalnie wyróżnić duże części modelu, co nawet nie uczyniłoby tego szczególnie uciążliwym.

Istnieje uporczywy ... mem, że metody bayesowskie nie wymagają wielu korekt porównań. Niestety, kursy późniejsze to po prostu kolejna statystyka testowa dla częstych (tj. Osób, którym zależy na błędach typu I / II). Nie mają żadnych specjalnych właściwości, które kontrolują tego rodzaju błędy (dlaczego mieliby?). Wracasz więc na trudny teren, ale być może na nieco bardziej pryncypialnym gruncie.

Bayesowskim kontrargumentem jest to, że powinniśmy skupić się na tym, co wiemy teraz, a zatem te poziomy błędów nie są tak ważne.


O odtwarzalności

Wydaje się, że sugerujesz, że niewłaściwa wielokrotna korekta porównań jest przyczyną wielu niepoprawnych / odtwarzalnych wyników. Mam wrażenie, że inne czynniki są bardziej prawdopodobne. Oczywistym jest fakt, że nacisk na publikację prowadzi ludzi do unikania eksperymentów, które naprawdę podkreślają ich hipotezę (tj. Zły projekt eksperymentalny).

p


Dzięki Matt. Podoba mi się pomysł „sułtana statystycznego”. Czy jednak można kontrolować częstotliwość fałszywych odkryć bez zastosowania takiej korekty?
Kelvin

9
Punktem starałem się zrobić to, że nie ma sensu się martwić o The Fałszywego Discovery Oceń (lub wskaźnik błędu familywise) we wszystkich przedsięwzięciach ludzkich. Takie postępowanie wymagałoby tak dużej awersji do ryzyka, że ​​nigdy nic nie można zrobić. Zamiast tego utrzymujesz FDR / FWER dla poszczególnych eksperymentów na bardzo niskim poziomie i próbujesz odtworzyć znaczące rzeczy, które są również interesujące / przydatne / itp.
Matt Krause,

Dzięki, myślę, że ostatecznie wszystko sprowadza się do replikacji rzeczy, które mają znaczenie. Jest to w pełni zgodne z filozofią nauki, zgodnie z którą nie można udowodnić żadnej hipotezy, którą z czasem wzmacniają jedynie powtarzane eksperymenty.
Kelvin

3
+1 dla sułtana statystycznego. Jedna ważna uwaga: jak Sułtan powinien poradzić sobie z faktem, że wartości p przybywają sukcesywnie? Kiepska p = 0,045 przybywająca jako pierwsza zostanie uznana za znaczącą, ale po kilku stuleciach nie będzie szansy? To nie wydaje się mieć sensu (od DW do @ Kelvin). Kolejna uwaga: wyobraź sobie, że Sułtan musiał czekać na powiedzmy 1 rok i zastosować poprawkę do wszystkich wyników z ubiegłego roku; Zastanawiam się, czym właściwie stałby się skorygowany próg alfa. Jakieś pomysły na to, Matt? To (fałszywie!) Zakładając, że wszyscy zgadzają się na wspólną alfę.
ameba mówi Przywróć Monikę

2
@amoeba, to interesujące pytanie i nie jestem pewien, czy wiem. Nasz ukochany Data Despot może zmusić wszystkich do użycia jakiegoś sekwencyjnego projektu, co może pomóc, ale wciąż testuje tę dziwną złożoną hipotezę. Alternatywnie, wszyscy moglibyśmy zostać Bayesianami i przestać się martwić o naszą historię błędów błędów typu I / II przez większość czasu. Jest to trochę tanie (jeśli nie możesz ich pokonać, zignoruj ​​je!), Ale myślę, że jest blisko tego, jak ludzie zachowują się w praktyce.
Matt Krause,

7

Myślę, że celowo malujesz pesymistyczny pogląd na naukę generowany przez statystyki. Rzeczywiście, moim zdaniem, statystyki to nie tylko zestaw narzędzi zapewniających wartości p. Istnieje również stan dyscypliny, ostrożności i czujności w odniesieniu do niektórych możliwych efektów związanych z procedurą indukcji naukowej ... i chociaż moim zdaniem wszystko, co mówisz, jest mniej więcej prawdą, oto niektóre z moich opinii na temat tego, dlaczego mamy pewne gwarancje o wiedzy, którą tworzymy:

  • Po pierwsze, wniosek nie powinien być wyciągany tylko przy argumencie wartości ap niższej niż określony próg.

  • Po drugie, według mojej wiedzy argumenty typu „ponad połowa opublikowanych wyników naukowych są błędne” są istotne i interesujące, ale są obliczane na podstawie wartości p w przybliżeniu równych 0,05 (patrz np. Zamieszanie dotyczące wartości p i częstości fałszywych odkryć ) . W przypadku niższych wartości p efekt jest znacznie niższy niż zapowiadany, aw praktyce nierzadko uzyskuje się wartości p znacznie niższe niż 0,05. Co więcej, dana hipoteza jest wielokrotnie potwierdzana przez kilka pod hipotez, co ponownie zmniejsza zapowiadane efekty.

  • Po trzecie, kwestia odtwarzalności jest prawdziwa, ale stanowi również problem, z którym musi się zmierzyć statystyk, identyfikując i radząc sobie z mylącymi efektami, projektami grup ... i można to zrobić bardzo dobrze, jeśli jest to zrobione z fachową wiedzą i rygorystycznością.

  • Wreszcie, jak rozumiem, archetypowe badanie statystyczne musi mniej więcej opierać się na następujących 5 następujących po sobie krokach:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Ta ogólna wytyczna uniemożliwia nam wyprawy na ryby jako narzędzie do wyciągania ogólnych wniosków.

Podsumowując, powiedziałbym, że twój zamiar ochrony nas przed złymi wnioskami naukowymi poprzez przekroczenie wartości p jest nieco iluzoryczny. Wolałbym chronić nas przed złymi wnioskami naukowymi, zapewniając i zachęcając do ostrzeżonych i odpowiednich analiz (i chciałbym sądzić, że jest to powód, dla którego tylu wykwalifikowanych osób jest tutaj, aby pomagać innym na tej stronie).


2
Nie sądzę, że to pomaga w obronie. Obecna kwestia nieodtwarzalności w nauce jest nie tylko „interesująca”, lecz znajduje się w punkcie kryzysowym i dotyczyła Natury, a nawet Ekonomisty, od kiedy wierzyć w konkretne badanie (lub nawet skuteczność zatwierdzonego leku) ) nie jest teraz lepszy niż rzut monetą, pomimo zainwestowanych miliardów dolarów.
Kelvin

6
Zgadzam się, że kryzys istnieje. Chodzi mi o to, że możesz sprawdzić jakość monety. Nie wszystkie papiery są tej samej jakości i z mojego doświadczenia wynika, że ​​czasem łatwo jest wskazać wadliwy papier. Nie zaprzeczam problemowi
Odrzucam

Ok, dziękuję, szanuję twoją odpowiedź. Ale wciąż ze statystycznego punktu widzenia i bez względu na jakość eksperymentów, nigdy nie możemy kontrolować ogólnego wskaźnika fałszywych odkryć bez zastosowania takiej korekty, prawda?
Kelvin

0

Czy można kontrolować częstotliwość fałszywych odkryć bez zastosowania takiej korekty?

100zaza

Pamiętaj, że (częste) poziomy błędów nie dotyczą w ogóle prawdopodobieństwa hipotezy testowanej przez dowolny test, ale jako metody przeprowadzania testów z gwarantowanymi wskaźnikami długoterminowych niepowodzeń. Korekta do wielokrotnych porównań to kolejna metoda gwarantująca długoterminowe wskaźniki awarii: jedna do konstruowania metod złożonych, które zawierają wiele testów, tak aby niektóre gwarantowane długoterminowe wskaźniki awarii dla związku pozostały.

Jeśli przeprowadzisz pojedynczy eksperyment ze 100 testami i poinformujesz, że 5 z nich wypowiedziało się przeciw zeru, twierdząc w ten sposób, że zaobserwowałeś prawdziwy wynik, nikt nie będzie pod wrażeniem, wiedząc, że średnio spośród 100 testów prawdziwych zer, 5% będzie odrzucać; zastosowana metoda „przeprowadź 100 testów i zgłoś, czy którykolwiek z nich spełnia próg 5%”, ma wyższy wskaźnik awaryjności niż 5%. W związku z tym możesz wybrać kontrolę dla wielu porównań i zgłosić, że np. 2 na 100 testów miało wartości p niższe niż (5/100 == 0,05)%. Teraz stosujesz metodę, która ponownie ma gwarantowany wskaźnik niepowodzenia (w przypadku błędu zgłoszenia co najmniej jednego znaczącego testu, mimo że żadne hipotezy nie są fałszywe) w wysokości 5%.

za, nieskorygowane progi). Z drugiej strony, jeśli każdy zawsze przetestowałby 100 prawdziwych hipotez na badanie i nie zastosował FEW, liczba eksperymentów wykazujących znaczące skutki przekroczyłaby gwarantowany poziom błędu wynoszący 5%. (Porównaj z FDR / False Detection Rate, który nie jest metodą gwarantującą szybkość zgłaszania każdego znaczącego testu w badaniu wielu testów prawdziwych hipotez).


6
To, co nazywasz „częstością fałszywych odkryć” w pierwszym akapicie, nie jest tak zwane „częstością fałszywych odkryć”.
ameba mówi Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.