Czy można zmienić hipotezę, aby dopasować obserwowane dane (inaczej wyprawa na ryby) i uniknąć wzrostu liczby błędów typu I?

Dobrze wiadomo, że badacze powinni poświęcić czas na obserwowanie i badanie istniejących danych i badań przed sformułowaniem hipotezy, a następnie zebraniem danych w celu przetestowania tej hipotezy (odnosząc się do testowania istotności zerowej hipotezy). Wiele podstawowych książek statystycznych ostrzega, że hipotezy muszą zostać sformułowane a priori i nie można ich zmienić po zebraniu danych, w przeciwnym razie metodologia stanie się nieważna.

Rozumiem, że jednym z powodów, dla których zmiana hipotezy w celu dopasowania obserwowanych danych jest problematyczna, jest większa szansa na popełnienie błędu typu I z powodu fałszywych danych, ale moje pytanie brzmi: czy to jedyny powód, czy istnieją inne podstawowe problemy z przejściem na wyprawie wędkarskiej?

Jako pytanie dodatkowe, czy są sposoby na wyprawy wędkarskie bez narażania się na potencjalne pułapki? Na przykład, jeśli masz wystarczającą ilość danych, czy możesz wygenerować hipotezy z połowy danych, a następnie użyć drugiej połowy do ich przetestowania?

aktualizacja

Doceniam zainteresowanie moim pytaniem, ale odpowiedzi i komentarze dotyczą głównie tego, co uznałem za informacje podstawowe. Chciałbym wiedzieć, czy istnieją inne powody, dla których jest to złe poza większą możliwością fałszywych wyników i czy istnieją sposoby, takie jak najpierw dzielenie danych, zmiany hipotezy post hoc, ale unikania wzrostu błędów typu I.

Zaktualizowałem tytuł, aby, mam nadzieję, odzwierciedlić sedno mojego pytania.

Dzięki i przepraszam za zamieszanie!

hypothesis-testing

— post-hoc
źródło

Przeczytaj to: people.psych.cornell.edu/~jec7/pcd%20pubs/simmonsetal11.pdf

— jona

Z innego punktu widzenia na to, co już powiedziano: istotą metody naukowej jest stawianie hipotez, a następnie próba ich zafałszowania, aby stały się teoriami (jeśli fałszowanie się nie powiedzie). Wybranie się na wyprawę wędkarską jest dobrym sposobem na znalezienie hipotez, które warto sfałszować w późniejszym eksperymencie, ale nigdy nie można próbować sfałszować hipotezy za jednym razem. W szczególności, jeśli jesteś otwarty na dostosowanie swojej hipotezy, nie próbujesz już jej fałszować. Zamiast tego, dostosowując się, fałszujesz swoją nieskorygowaną hipotezę i formujesz nową hipotezę.

— Wrzlprmft

@jona, to świetny artykuł. Czytałem już artykuły Ioannidisa i Schoolera, ale Simmons i wsp. Wspaniale ilustrują problem.

— post-hoc

Zastanawiam się, czy ten artykuł będzie również odpowiedni dla twojego pytania: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Nie jest dokładnie na ten sam temat, ale dotyczy jednego aspektu.

— a11msp

Dane mogą spowodować zmianę hipotezy ... ale w takim przypadku musisz zacząć zbierać nowe dane od zera, aby potwierdzić nową hipotezę.

— keshlam

Odpowiedzi:

Z pewnością możesz jeździć na wyprawy wędkarskie, o ile przyznasz , że jest to wyprawa wędkarska i traktuj ją jako taką. Bardziej ładną nazwą na to jest „eksploracyjna analiza danych”.

Lepszą analogią może być strzelanie do celu:

Możesz strzelać do celu i świętować, jeśli trafisz w dziesiątkę.

Możesz strzelać bez celu, aby przetestować właściwości swojej broni.

Ale oszustwo to strzelać w ścianę, a następnie pomalować cel wokół dziury po kuli.

Jednym ze sposobów uniknięcia niektórych problemów jest eksploracja zestawu danych szkoleniowych, a następnie przetestowanie go na osobnym zestawie danych „testowych”.

— Peter Flom - Przywróć Monikę
źródło

Trudno poprawić odpowiedź Petera. Niefortunnym problemem związanym z dużą ilością pogłębiania danych jest brak przyznania się przez autorów, że hipotezy nie zostały w pełni określone, tj. Niestosowania terminu „eksploracyjny”. Wielu, wielu badaczy pogłębia dane, aby uzyskać artykuł do opublikowania, i nie podejmuje żadnych prób walidacji (co często ich rozczarowuje).

— Frank Harrell

Posuwając komentarz Franka Harrella o krok dalej: uzasadnione jest badanie niektórych danych i opublikowanie intrygującego odkrycia ... jako intrygującego odkrycia eksploracyjnego, które podlega reprodukcji / zatwierdzeniu. Wadą jest to, że jeśli ktoś potwierdzi twoje odkrycia, może również zdobyć chwałę, a jeśli inni nie potwierdzą twoich wyników, zostałeś oszukany przez fałszywą korelację. Źle, jeśli masz duże ego. Nie wspominając już o tym, że musicie upublicznić swoje dane i procedury, czego nie zrobi wielu praktyków w wielu dziedzinach. I powinieneś śledzić nowe dane zamiast iść dalej.

— Wayne

+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.

— WernerCD

@ dobrze post-hoc, nie powinien podnosić brwi, ale może. Zależy, czyje oczy znajdują się pod brwiami!

— Peter Flom - Przywróć Monikę

Texas Sharpshooter Fallacy ..

— smci

Problem z wyprawami na ryby jest następujący: jeśli przetestujesz wystarczającą liczbę hipotez, jedna z nich zostanie potwierdzona niską wartością p. Dam konkretny przykład.

Wyobraź sobie, że przeprowadzasz badanie epidemiologiczne. Znalazłeś 1000 pacjentów cierpiących na rzadką chorobę. Chcesz wiedzieć, co mają ze sobą wspólnego. Więc zaczynasz testowanie - chcesz sprawdzić, czy dana cecha jest nadmiernie reprezentowana w tej próbce. Początkowo testujesz płeć, rasę, pewną stosowną historię rodzinną (ojciec zmarł na chorobę serca przed 50. rokiem życia ...), ale w końcu, gdy masz problemy ze znalezieniem czegoś, co „przykleja się”, zaczynasz dodawać różnego rodzaju inne czynniki, które tylko może odnosić się do choroby:

jest wegetarianinem
podróżował do Kanady
ukończył studia
jest żonaty
ma dzieci
ma koty
ma psy
pije co najmniej 5 szklanek czerwonego wina na tydzień
…

Teraz jest rzecz. Jeśli wybiorę wystarczającą liczbę „losowych” hipotez, staje się prawdopodobne, że co najmniej jedna z nich spowoduje, że wartość ap będzie mniejsza niż 0,05 - ponieważ istotą wartości p jest „prawdopodobieństwo błędnego odrzucenia hipotezy zerowej, gdy istnieje nie ma wpływu ". Mówiąc inaczej - średnio na każde 20 fałszywych hipotez, które testujesz, jedna z nich da ci ap <0,05 .

Jest to tak bardzo dobrze podsumowane w kreskówce XKCD http://xkcd.com/882/ :

wprowadź opis zdjęcia tutaj

Tragedia polega na tym, że nawet jeśli pojedynczy autor nie wykonuje 20 różnych testów hipotez na próbie w celu znalezienia znaczenia, może być 19 innych autorów, którzy robią to samo; a ten, kto „znajdzie” korelację, ma teraz interesujący artykuł do napisania i taki, który prawdopodobnie zostanie zaakceptowany do publikacji…

Prowadzi to do niefortunnej tendencji do powtarzalnych wyników. Najlepszym sposobem na uniknięcie tego jako indywidualny autor jest podniesienie poprzeczki wyżej. Zamiast testować czynnik indywidualny, zadaj sobie pytanie „jeśli przetestuję N hipotez, jakie jest prawdopodobieństwo wymyślenia co najmniej jednego fałszywie pozytywnego wyniku”. Kiedy naprawdę testujesz „hipotezy rybackie”, możesz pomyśleć o korekcie Bonferroniego, aby temu zapobiec - ale ludzie często tego nie robią.

Było kilka interesujących prac dr Ioannidesa - profilowanych w Atlantic Monthly specjalnie na ten temat.

Zobacz także to wcześniejsze pytanie z kilkoma wnikliwymi odpowiedziami.

zaktualizuj, aby lepiej odpowiadać na wszystkie aspekty pytania:

Jeśli boisz się, że możesz „łowić ryby”, ale tak naprawdę nie wiesz, jaką hipotezę sformułować, możesz zdecydowanie podzielić swoje dane na sekcje „eksploracja”, „replikacja” i „potwierdzenie”. Zasadniczo powinno to ograniczyć narażenie na ryzyko opisane wcześniej: jeśli masz wartość ap wynoszącą 0,05 w danych eksploracyjnych i otrzymujesz podobną wartość w danych replikacyjnych i potwierdzających, Twoje ryzyko pomyłki spada. Ładny przykład „robienia tego dobrze” pokazano w British Medical Journal (bardzo szanowana publikacja o współczynniku wpływu 17+)

Badanie i potwierdzenie czynników związanych z niepowikłaną ciążą u nieródek u kobiet: prospektywne badanie kohortowe, Chappell i in.

Oto odpowiedni akapit:

Zestaw danych 5628 kobiet podzieliliśmy na trzy części: zbiór danych eksploracyjnych dwóch trzecich kobiet z Australii i Nowej Zelandii, wybranych losowo (n = 2129); lokalny zestaw danych replikacji pozostałej jednej trzeciej kobiet z Australii i Nowej Zelandii (n = 1067); oraz zewnętrzny, odrębny geograficznie zbiór danych potwierdzających 2432 europejskich kobiet z Wielkiej Brytanii i Republiki Irlandii.

Cofając się nieco w literaturze, znajduje się dobry artykuł Altmana i in. Zatytułowany „Prognozy i badania prognostyczne: sprawdzanie poprawności modelu prognostycznego”, który idzie o wiele głębiej, i sugeruje sposoby upewnienia się, że nie wpadniesz w ten błąd. „Główne punkty” z artykułu:

Nieważne modele nie powinny być stosowane w praktyce klinicznej Podczas walidacji modelu prognostycznego należy oceniać kalibrację i dyskryminację Walidację należy przeprowadzić na danych innych niż dane wykorzystane do opracowania modelu, najlepiej od pacjentów w innych ośrodkach Modele mogą nie działać dobrze w praktyce z powodu braków w metodach rozwoju lub dlatego, że nowa próbka zbyt różni się od oryginału

Zwróć uwagę w szczególności na sugestię, aby przeprowadzić walidację (parafrazuję) z danymi z innych źródeł - tj. Nie wystarczy dowolnie podzielić dane na podzbiory, ale powinieneś zrobić, co możesz, aby udowodnić, że „uczenie się” zestawu jest z jednego zestawu eksperymentów można zastosować do danych z innego zestawu eksperymentów. Jest to wyższy pasek, ale dodatkowo zmniejsza ryzyko, że systematyczne odchylenie w konfiguracji tworzy „wyniki”, których nie można niezależnie zweryfikować.

To bardzo ważny temat - dziękuję, że zadałeś pytanie!

— Floris
źródło

To przywodzi na myśl: xkcd.com/882

— Jens

@jens - jest to znacznie bardziej wymowne wyjaśnienie niż to, które podałem ... Dzięki za ten link. Jak zwykle - zrobić Najedź myszką na kreskówce dla trochę Zinger.

— Floris

Ioannides i artykuł Lehrera to ścieżka, która mnie tu przywiodła. Twój przykład jest podobny do przykładu Simmonsa i in. Wspomnianego przez @jona. Jest to bardzo dobry sposób na wyjaśnienie wzrostu prawdopodobieństwa błędów typu I, ale czy istnieją inne powody, dla których jest zły?

— post-hoc

Problem z pogłębianiem danych ogólnie polega na tym, że istnieje ryzyko pomylenia „korelacji” z „przyczynowością”. Najpierw przedstawiając rozsądną hipotezę , a następnie potwierdzając, że pomaga to wyjaśnić obserwacje, ograniczasz ryzyko pomylenia tych dwóch. „Big Data” często idzie w drugą stronę - ich sposobem działania jest „jeśli przeanalizuję wystarczającą ilość danych, zobaczę wzorce, które były prawdziwe w przeszłości i które będą nadal obowiązywać w przyszłości”. Czasami to działa, czasem nie. Statystyka nigdy nie powinna zastępować myślenia i zrozumienia - tylko potwierdzenie .

— Floris

Nie sądzę, że podstawowym problemem jest korelacja vs. związek przyczynowy. Łatwo jest przeprowadzić kiepską analizę korelacyjną, aby stwierdzić, że skojarzenia się nie replikują.

— Frank Harrell

Pytanie dotyczy tego, czy istnieją inne problemy niż inflacja błędów typu I, które pochodzą z wypraw wędkarskich.

Błąd typu I pojawia się, gdy odrzucasz hipotezę zerową (zwykle bez skutku), gdy jest ona prawdziwa. Uogólnienie, związane z błędami typu I, ale niezupełnie takie samo, polega na tym, że nawet gdy wartość null jest fałszywa (tzn. Występuje pewien efekt), wyprawy wędkarskie doprowadzą do zawyżenia wielkości (a tym samym ważności) znalezionych efektów. Innymi słowy, gdy nie patrzysz na konkretną zmienną, ale patrzysz na wszystko i skupiasz swoją uwagę na tym, co jest największym efektem, efekty, które znajdziesz, mogą nie być , ale są tendencyjne, aby wydawać się większe niż są. Przykładem tego jest moja odpowiedź na: Algorytmy automatycznego wyboru modelu . $0$

— gung - Przywróć Monikę
źródło