Byłby to oczywiście koszmar absolutny do zrobienia w praktyce, ale załóżmy, że da się to zrobić: mianujemy sułtana statystycznego i każdy, kto przeprowadzi test hipotez, zgłasza swoje surowe wartości dla tego despota. Wykonuje jakąś globalną (dosłownie) korektę wielokrotnych porównań i odpowiada poprawionymi wersjami.p
Czy wprowadziłoby to złoty wiek nauki i rozumu? Nie, prawdopodobnie nie.
tH.0:H.ZA: Grupy mają ten sam środek. Grupy mają różne środki.
H.0H.0hipoteza jest w pewnym sensie „nudna”, a badacze zazwyczaj zajmują się unikaniem sytuacji „fałszywie pozytywnej”, w której twierdzą, że znaleźli różnicę między grupami, w których żadna z nich tak naprawdę nie istnieje. Dlatego wyniki nazywamy „znaczącymi” tylko wtedy, gdy wydają się mało prawdopodobne w ramach hipotezy zerowej, a zgodnie z konwencją próg niewiarygodności jest ustalony na 5%.
H.0
Różne podejścia wielokrotnej korekty mają pomóc ci wrócić do nominalnego poziomu błędu, który już wybrałeś do tolerowania dla poszczególnych testów. Robią to na nieco inne sposoby. Metody kontrolujące rodzinny wskaźnik błędów , takie jak procedury Bonferroniego , Sidaka i Holma , mówią: „Chciałeś 5% szansy na błąd w jednym teście, więc upewnimy się , że nie ma więcej niż 5 % szans na popełnienie błędów we wszystkich testach. ” Metody kontrolujące współczynnik fałszywych odkryćzamiast tego powiedz „Najwyraźniej nie masz racji, że do 5% czasu przeprowadzasz pojedynczy test, więc upewnimy się, że nie więcej niż 5% twoich„ połączeń ”jest błędnych podczas wykonywania wielu testów”. (Zobacz różnicę?)
Załóżmy teraz, że próbujesz kontrolować rodzinny poziom błędów
wszystkich uruchomionych testów hipotez. Mówisz zasadniczo, że chcesz <5% szansy na fałszywe odrzucenie jakiejkolwiek hipotezy zerowej, kiedykolwiek. To ustanawia niemożliwie rygorystyczny próg, a wnioskowanie byłoby skutecznie bezużyteczne, ale istnieje jeszcze bardziej palący problem: twoja globalna korekta oznacza, że testujesz absolutnie bezsensowne „złożone hipotezy”, takie jak
H.1:Lek XYZ zmienia liczbę komórek T ∧Winogrona rosną lepiej na niektórych polach ∧… ∧ … ∧ … ∧ … ∧Mężczyźni i kobiety jedzą różne ilości lodów
Dzięki korektom współczynnika fałszywego odkrywania problem liczbowy nie jest tak poważny, ale filozoficznie jest bałaganem. Zamiast tego sensowne jest zdefiniowanie „rodziny” powiązanych testów, takich jak lista genów kandydujących podczas badania genomiki lub zestaw przedziałów czasowo-częstotliwościowych podczas analizy spektralnej. Dostosowanie rodziny do konkretnego pytania pozwala właściwie zinterpretować błąd typu I związany bezpośrednio. Na przykład, możesz spojrzeć na zestaw wartości p skorygowanych FWER z własnych danych genomowych i powiedzieć: „Istnieje <5% szans, że którykolwiek z tych genów jest fałszywie dodatni”. Jest to o wiele lepsze niż mglista gwarancja obejmująca wnioski dokonywane przez osoby, na których ci nie zależy, na tematy, na których ci nie zależy.
Drugą stroną tego jest to, że odpowiedni wybór „rodziny” jest dyskusyjny i nieco subiektywny (czy wszystkie geny są jedną rodziną, czy mogę po prostu rozważyć kinazy?), Ale powinien być poinformowany o twoim problemie i nie wierzę nikomu poważnie opowiada się za definiowaniem rodzin niemal tak szeroko.
Co powiesz na Bayes?
Analiza bayesowska oferuje spójną alternatywę dla tego problemu - jeśli chcesz odejść nieco od frameworku błędów Frequentist Type I / Type II. Zaczynamy od jakiegoś niezobowiązującego wcześniej ... cóż ... wszystkiego. Za każdym razem, gdy czegoś się uczymy, informacja ta jest łączona z wcześniejszym wygenerowaniem rozkładu bocznego, który z kolei staje się priorytetem przy następnym nauczeniu się czegoś. Daje to spójną regułę aktualizacji i można porównać różne hipotezy dotyczące konkretnych rzeczy, obliczając współczynnik Bayesa między dwiema hipotezami. Można przypuszczalnie wyróżnić duże części modelu, co nawet nie uczyniłoby tego szczególnie uciążliwym.
Istnieje uporczywy ... mem, że metody bayesowskie nie wymagają wielu korekt porównań. Niestety, kursy późniejsze to po prostu kolejna statystyka testowa dla częstych (tj. Osób, którym zależy na błędach typu I / II). Nie mają żadnych specjalnych właściwości, które kontrolują tego rodzaju błędy (dlaczego mieliby?). Wracasz więc na trudny teren, ale być może na nieco bardziej pryncypialnym gruncie.
Bayesowskim kontrargumentem jest to, że powinniśmy skupić się na tym, co wiemy teraz, a zatem te poziomy błędów nie są tak ważne.
O odtwarzalności
Wydaje się, że sugerujesz, że niewłaściwa wielokrotna korekta porównań jest przyczyną wielu niepoprawnych / odtwarzalnych wyników. Mam wrażenie, że inne czynniki są bardziej prawdopodobne. Oczywistym jest fakt, że nacisk na publikację prowadzi ludzi do unikania eksperymentów, które naprawdę podkreślają ich hipotezę (tj. Zły projekt eksperymentalny).
p