Problem z wyprawami na ryby jest następujący: jeśli przetestujesz wystarczającą liczbę hipotez, jedna z nich zostanie potwierdzona niską wartością p. Dam konkretny przykład.
Wyobraź sobie, że przeprowadzasz badanie epidemiologiczne. Znalazłeś 1000 pacjentów cierpiących na rzadką chorobę. Chcesz wiedzieć, co mają ze sobą wspólnego. Więc zaczynasz testowanie - chcesz sprawdzić, czy dana cecha jest nadmiernie reprezentowana w tej próbce. Początkowo testujesz płeć, rasę, pewną stosowną historię rodzinną (ojciec zmarł na chorobę serca przed 50. rokiem życia ...), ale w końcu, gdy masz problemy ze znalezieniem czegoś, co „przykleja się”, zaczynasz dodawać różnego rodzaju inne czynniki, które tylko może odnosić się do choroby:
- jest wegetarianinem
- podróżował do Kanady
- ukończył studia
- jest żonaty
- ma dzieci
- ma koty
- ma psy
- pije co najmniej 5 szklanek czerwonego wina na tydzień
…
Teraz jest rzecz. Jeśli wybiorę wystarczającą liczbę „losowych” hipotez, staje się prawdopodobne, że co najmniej jedna z nich spowoduje, że wartość ap będzie mniejsza niż 0,05 - ponieważ istotą wartości p jest „prawdopodobieństwo błędnego odrzucenia hipotezy zerowej, gdy istnieje nie ma wpływu ". Mówiąc inaczej - średnio na każde 20 fałszywych hipotez, które testujesz, jedna z nich da ci ap <0,05 .
Jest to tak bardzo dobrze podsumowane w kreskówce XKCD http://xkcd.com/882/ :
Tragedia polega na tym, że nawet jeśli pojedynczy autor nie wykonuje 20 różnych testów hipotez na próbie w celu znalezienia znaczenia, może być 19 innych autorów, którzy robią to samo; a ten, kto „znajdzie” korelację, ma teraz interesujący artykuł do napisania i taki, który prawdopodobnie zostanie zaakceptowany do publikacji…
Prowadzi to do niefortunnej tendencji do powtarzalnych wyników. Najlepszym sposobem na uniknięcie tego jako indywidualny autor jest podniesienie poprzeczki wyżej. Zamiast testować czynnik indywidualny, zadaj sobie pytanie „jeśli przetestuję N hipotez, jakie jest prawdopodobieństwo wymyślenia co najmniej jednego fałszywie pozytywnego wyniku”. Kiedy naprawdę testujesz „hipotezy rybackie”, możesz pomyśleć o korekcie Bonferroniego, aby temu zapobiec - ale ludzie często tego nie robią.
Było kilka interesujących prac dr Ioannidesa - profilowanych w Atlantic Monthly specjalnie na ten temat.
Zobacz także to wcześniejsze pytanie z kilkoma wnikliwymi odpowiedziami.
zaktualizuj, aby lepiej odpowiadać na wszystkie aspekty pytania:
Jeśli boisz się, że możesz „łowić ryby”, ale tak naprawdę nie wiesz, jaką hipotezę sformułować, możesz zdecydowanie podzielić swoje dane na sekcje „eksploracja”, „replikacja” i „potwierdzenie”. Zasadniczo powinno to ograniczyć narażenie na ryzyko opisane wcześniej: jeśli masz wartość ap wynoszącą 0,05 w danych eksploracyjnych i otrzymujesz podobną wartość w danych replikacyjnych i potwierdzających, Twoje ryzyko pomyłki spada. Ładny przykład „robienia tego dobrze” pokazano w British Medical Journal (bardzo szanowana publikacja o współczynniku wpływu 17+)
Badanie i potwierdzenie czynników związanych z niepowikłaną ciążą u nieródek u kobiet: prospektywne badanie kohortowe, Chappell i in.
Oto odpowiedni akapit:
Zestaw danych 5628 kobiet podzieliliśmy na trzy części: zbiór danych eksploracyjnych dwóch trzecich kobiet z Australii i Nowej Zelandii, wybranych losowo (n = 2129); lokalny zestaw danych replikacji pozostałej jednej trzeciej kobiet z Australii i Nowej Zelandii (n = 1067); oraz zewnętrzny, odrębny geograficznie zbiór danych potwierdzających 2432 europejskich kobiet z Wielkiej Brytanii i Republiki Irlandii.
Cofając się nieco w literaturze, znajduje się dobry artykuł Altmana i in. Zatytułowany „Prognozy i badania prognostyczne: sprawdzanie poprawności modelu prognostycznego”, który idzie o wiele głębiej, i sugeruje sposoby upewnienia się, że nie wpadniesz w ten błąd. „Główne punkty” z artykułu:
Nieważne modele nie powinny być stosowane w praktyce klinicznej Podczas walidacji modelu prognostycznego należy oceniać kalibrację i dyskryminację Walidację należy przeprowadzić na danych innych niż dane wykorzystane do opracowania modelu, najlepiej od pacjentów w innych ośrodkach Modele mogą nie działać dobrze w praktyce z powodu braków w metodach rozwoju lub dlatego, że nowa próbka zbyt różni się od oryginału
Zwróć uwagę w szczególności na sugestię, aby przeprowadzić walidację (parafrazuję) z danymi z innych źródeł - tj. Nie wystarczy dowolnie podzielić dane na podzbiory, ale powinieneś zrobić, co możesz, aby udowodnić, że „uczenie się” zestawu jest z jednego zestawu eksperymentów można zastosować do danych z innego zestawu eksperymentów. Jest to wyższy pasek, ale dodatkowo zmniejsza ryzyko, że systematyczne odchylenie w konfiguracji tworzy „wyniki”, których nie można niezależnie zweryfikować.
To bardzo ważny temat - dziękuję, że zadałeś pytanie!