Błąd strzelców wyborowych w Teksasie w analizie danych eksploracyjnych

23

Czytałem ten artykuł w Nature, w którym wyjaśniono niektóre błędy w kontekście analizy danych. Zauważyłem, że błąd teleobiektywu w Teksasie był szczególnie trudny do uniknięcia:

Pułapkę poznawczą, która czeka podczas analizy danych, ilustruje bajka strzelca wyborowego w Teksasie: nieudolny strzelec wyborowy, który wystrzeliwuje losowy wzór pocisków z boku stodoły, rysuje cel wokół największej grupy dziur po kulach i dumnie wskazuje na jego sukces.

Jego dziesiątka jest oczywiście śmieszna - ale błąd nie jest tak oczywisty dla graczy, którzy wierzą w „gorącą rękę”, gdy mają serię zwycięstw, lub dla ludzi, którzy widzą nadprzyrodzone znaczenie, gdy losowanie loterii pojawia się jako wszystkie nieparzyste liczby.

Nie zawsze jest to oczywiste dla badaczy. „Po prostu dostajesz trochę zachęty z danych, a potem myślisz, że to jest ścieżka do zejścia na dół”, mówi Pashler. „Nie zdajesz sobie sprawy, że masz 27 różnych opcji i wybrałeś tę, która dała Ci najbardziej przyjemne lub interesujące wyniki, a teraz angażujesz się w coś, co wcale nie jest obiektywną reprezentacją danych. ”

Myślę, że tego rodzaju prace eksploracyjne są powszechne i często hipotezy są konstruowane na podstawie tej części analizy. Istnieje całe podejście ( EDA ) poświęcone temu procesowi:

Analiza danych eksploracyjnych została promowana przez Johna Tukeya, aby zachęcić statystyków do zbadania danych i ewentualnie sformułowania hipotez, które mogą prowadzić do gromadzenia nowych danych i eksperymentów

Wygląda na to, że każdy proces eksploracyjny przeprowadzony bez uprzedniej hipotezy ma skłonność do generowania fałszywych hipotez.

Zauważ, że powyższy opis EDA faktycznie mówi new data collection and experiments. Rozumiem, że po zebraniu nowych danych właściwa jest analiza danych potwierdzających (CDA). Nie sądzę jednak, aby to rozróżnienie było bardzo jasne i chociaż idealna byłaby separacja EDA i CDA, z pewnością istnieją pewne okoliczności, w których nie jest to możliwe. Chciałbym powiedzieć, że ścisłe przestrzeganie tego rozdziału jest rzadkością i większość praktykujących wcale nie zgadza się z paradygmatem EDA.

Więc moje pytanie brzmi: czy EDA (lub jakikolwiek nieformalny proces eksploracji danych) sprawia, że bardziej prawdopodobne jest zakochanie się w błędach strzelców wyborowych w Teksasie?

eda fallacy

— Robert Smith
źródło

3

Nie wiem dokładnie, co rozumiesz przez „fałszywą hipotezę”. Duch eksploracyjnej analizy danych polega na spojrzeniu na dane i otwarciu się na różne wzorce, w tym wzorce, których się nie spodziewałeś. Nie mniej i niewiele więcej. Nic w eksploracyjnej analizie danych nie gwarantuje dobrych pomysłów i nic nie wyklucza ani nie pozwala zrezygnować z krytycznego myślenia lub łączenia tego, co robisz, z podstawową nauką (szeroko rozumiany). Istnieje więc ryzyko krytykowania EDA za rzeczy, których nikt nie doświadczył. lub nikt nie obsługuje.

— Nick Cox

3

W EDA najtrudniej jest się uczyć i uczyć, na czym dokładnie powinny polegać testy istotności (w najbardziej optymistycznych relacjach): nabrać nawyku nieinterpretacji szczegółów w danych, które nie są wystarczająco ważne, aby zasługiwały na uwagę . Twierdziłbym, że wiele rachunków EDA nie popiera wystarczająco mocno idei, że wzięcie wzorca na poważnie musi być możliwe do zidentyfikowania w różnych zestawach danych, ale to zaniedbanie jest powszechne w naukach statystycznych.

— Nick Cox

1

Dzięki. Problem polega na tym, że generowanie wielu hipotez i testowanie ich w tym samym zestawie danych jest naprawdę niebezpieczne, ponieważ prawdopodobnie jedna z nich zostanie potwierdzona, nawet jeśli jest fałszywa. Jak opisuje Creosote, konieczna byłaby korekta wartości p. Niestety nigdy nie widziałem tego w praktyce.

— Robert Smith

2

Z nauki (francuskiej) EDA na początku lat 80. XX wieku miałem wrażenie, że o wiele łatwiej było nagiąć swoją analizę do zamierzonych wniosków niż o silniejszej strukturze statystycznej ...

— Xi'an

12

Jeśli ktoś postrzega rolę EDA wyłącznie jako generującą hipotezy, to żadna błędność strzelca wyborowego nie ma zastosowania. Jednak bardzo ważne jest, aby kolejne próby potwierdzające były rzeczywiście niezależne. Wielu badaczy próbuje „pogodzić różnice” z takimi rzeczami, jak analizy zbiorcze, meta analizy i metody bayesowskie. Oznacza to, że przynajmniej niektóre dowody przedstawione w takiej analizie obejmują „okrąg wokół losowych dziur po kulach”.

— AdamO
źródło

5

Dokładnie. Problem z tak dużą analizą danych eksploracyjnych polega na tym, że ten sam zestaw jest wykorzystywany zarówno do treningu (określanie, gdzie wylądowały pociski), jak i do testowania (rysowanie okręgu wokół nich).

— Michael K

11

To bardzo negatywnie ocenia eksploracyjną analizę danych. Chociaż argument ten nie jest błędny, tak naprawdę mówi „co może pójść nie tak, gdy użyję bardzo ważnego narzędzia w niewłaściwy sposób?”

Zaakceptowanie nieskorygowanych wartości p metod EDA doprowadzi do znacznie zawyżonych poziomów błędu typu I. Ale myślę, że Tukey nie byłby zadowolony z tego, że ktoś to robi. Celem EAO nie jest wyciąganie ostatecznych wniosków na temat relacji w danych, ale raczej szukanie potencjalnych nowych relacji w danych, które można by śledzić.

Rezygnacja z tego kroku w większym procesie naukowym zasadniczo hamuje naukę, aby nigdy nie była w stanie znaleźć nowych interesujących aspektów naszych danych, poza czystą logiczną dedukcją. Czy kiedykolwiek próbowałeś logicznie wydedukować, w jaki sposób nadekspresja zestawu genów wpłynie na przeżycie komórki? Wskazówka: to nie jest bardzo łatwe (jednym z naszych ulubionych żartów wśród pracowników bioinformatyki w mojej pracy było, gdy fizyk zapytał: „Dlaczego nie symulujesz fizycznych właściwości różnych interakcji genów? To przestrzeń o skończonych parametrach”).

Osobiście uważam, że zamieszanie w tej kwestii może doprowadzić do wielkiego spowolnienia postępu naukowego. Znam zbyt wielu badaczy niestatystycznych, którzy twierdzą, że nie chcą wykonywać procedur EDA wstępnych danych, ponieważ „wiedzą, że EDA może być zła”.

Podsumowując, jest absolutną prawdą, że stosowanie metod EDA i traktowanie ich jako potwierdzających metod analizy danych doprowadzi do nieprawidłowych wyników. Jednak brak właściwego stosowania EDA może prowadzić do prawie żadnych rezultatów.

— Cliff AB
źródło

Dziękuję Ci. Nie martwiłbym się zbytnio faktem, że niewiele osób bierze udział w jakiejś analizie eksploracyjnej. Myślę, że jest odwrotnie; wiele osób wykonuje tę eksplorację, ale prawdopodobnie nie podejmuje odpowiednich środków ostrożności, aby zapobiec opisanym błędom typu I. Interesujące jest jednak to, że znasz osoby, które mają negatywną opinię na temat EDA. Jeśli nie chcą tego robić we wstępnych danych, to kiedy czują się komfortowo, wykonując pracę EDA (lub podobną do EDA)?

— Robert Smith

Z mojego doświadczenia wynika, że badacze niestatystyczni są przyzwyczajeni do słuchania, że „wielokrotne porównania są problematyczne”, więc kiedy przychodzą do mnie z danymi, chętnie mówią, że chcą uniknąć wielokrotnych porównań, nawet przy wstępnych danych. Oczywiście pełniejszym zrozumieniem problemu byłoby uniknięcie wielokrotnych porównań w badaniu CDA.

— Cliff AB

Rozumiem. To ma więcej sensu.

— Robert Smith

5

Wygląda na to, że każdy proces eksploracyjny przeprowadzony bez uprzedniej hipotezy ma skłonność do generowania fałszywych hipotez.

Ulepszę to stwierdzenie i wyrażę to nieco inaczej: wybór hipotezy do przetestowania na podstawie danych podważa test, jeśli nie zastosuje się prawidłowej hipotezy zerowej. Istotą artykułu w Nature jest to, że analitykom łatwo jest oszukać się, ignorując wszystkie wielokrotne porównania, które domyślnie dokonują podczas eksploracji.

Nature cytuje Andrew Gelmana, ale nie wspomina o swojej pracy z Erikiem Lokenem na ten temat. Fragment:

Kiedy pojawiła się krytyka wielu porównań w odniesieniu do niektórych artykułów, które tu omawiamy, naukowcy nigdy nie odpowiadają, że wybrali wszystkie szczegóły przetwarzania danych i analizy danych z wyprzedzeniem; twierdzą raczej, że wybrali tylko jedną analizę dla danych, które zobaczyli . Intuicyjna, jak się wydaje, ta obrona, nie rozwiązuje podstawowej częstej troski o wielokrotne porównania.

Inne:

Nie jest tak, że naukowcy przeprowadzili setki różnych porównań i wybrali te, które były istotne statystycznie. Zaczynają raczej od nieco uformowanego pomysłu, jakie porównanie wykonać, i udoskonalają ten pomysł w świetle danych. Zobaczyli wzór w kolorze czerwonym i różowym i połączyli kolory.

Treściwie:

Istnieje mapowanie jeden do wielu od hipotez naukowych do statystycznych.

I jeszcze jedno, podkreśl moje:

We wszystkich omawianych przypadkach opublikowana analiza zawiera historię zgodną z hipotezami naukowymi, które stanowiły motywację do pracy, ale inne wzorce danych (które przy rozmiarach próby mogłyby z łatwością wystąpić przypadkowo) naturalnie doprowadziłyby do różne analizy danych (na przykład skupienie się na głównych efektach zamiast interakcji lub inny wybór podzbiorów danych do porównania), które w równym stopniu mogłyby zostać wykorzystane do poparcia hipotez badawczych. Rezultat pozostaje, jak pisaliśmy gdzie indziej, swego rodzaju maszyną do tworzenia i publikowania losowych wzorców.

Krótko mówiąc, nie jest tak, że EDA prowadzi do „fałszywej hipotezy”; testowanie hipotezy przy użyciu tego samego zestawu danych, które skłoniło tę hipotezę, może prowadzić do fałszywych wniosków.

Jeśli jesteś zainteresowany pokonaniem tej przeszkody, Gelman ma inny artykuł, w którym argumentuje, że wiele z tych problemów znika w ramach bayesowskich, a artykuł z odniesieniami do Loken'a „replikacja przed publikacją”, jak anegdotycznie opisano w pierwszej części tego artykułu .

— Sean Easter
źródło

Dziękuję Ci. Bardzo interesujące. Przyjrzę się artykułowi Gelmana na temat wielu porównań.

— Robert Smith,

3

Prawie z definicji tak, oczywiście, EDA bez CDA przyciąga strzelców z Teksasu.

Trudność, gdy CDA nie jest możliwa (być może nie można uzyskać dalszych danych), polega na szczerości wobec samego siebie, ile testów naprawdę wykonałeś, a tym samym na przypisaniu pewnego rodzaju $p$ -wartość twojego odkrycia. Nawet w przypadkach, w których można zasadniczo policzyć przestrzeń wyszukiwania, $p$ -wartość obliczeń jest albo wykonywana nieprawidłowo, albo wcale: patrz przykład na wikipedii .

— Kreozot
źródło

Dziękuję Ci. Tak, wymagana byłaby korekta. Nie sądzę, aby to brać pod uwagę, jest to bardzo powszechne.

— Robert Smith

3

Aby dodać do i tak świetnych odpowiedzi: istnieje pośrednik między pełnym CDA a akceptacją wyników EDA po wartości nominalnej. Po znalezieniu możliwej interesującej cechy (lub hipotezy) możesz poczuć jej solidność, wykonując weryfikację krzyżową (CV) lub symulacje ładowania początkowego. Jeśli twoje ustalenia zależą tylko od kilku kluczowych obserwacji, CV lub Bootstrap pokażą, że wiele próbek fałd (CV) lub boostrap nie odtwarza obserwowanej cechy.

Nie jest to niezawodna metoda, ale jest to dobra kontrola pośrednia przed przejściem na pełny CDA (lub celowe utrzymywanie „zestawu sprawdzania poprawności” z początkowej puli danych).

0

Najbardziej rygorystycznym kryterium wyboru modelu danych jest stopień, w jakim przybliżona jest złożoność danych Kołmogorowa - to znaczy stopień, w jakim dane bezstratnie kompresują dane. Teoretycznie może to wynikać z samej analizy danych eksploracyjnych.

Zobacz „ Dekonwolucja przyczynowa za pomocą algorytmicznych modeli generatywnych ”

— James Bowery
źródło