Czytałem ten artykuł w Nature, w którym wyjaśniono niektóre błędy w kontekście analizy danych. Zauważyłem, że błąd teleobiektywu w Teksasie był szczególnie trudny do uniknięcia:
Pułapkę poznawczą, która czeka podczas analizy danych, ilustruje bajka strzelca wyborowego w Teksasie: nieudolny strzelec wyborowy, który wystrzeliwuje losowy wzór pocisków z boku stodoły, rysuje cel wokół największej grupy dziur po kulach i dumnie wskazuje na jego sukces.
Jego dziesiątka jest oczywiście śmieszna - ale błąd nie jest tak oczywisty dla graczy, którzy wierzą w „gorącą rękę”, gdy mają serię zwycięstw, lub dla ludzi, którzy widzą nadprzyrodzone znaczenie, gdy losowanie loterii pojawia się jako wszystkie nieparzyste liczby.
Nie zawsze jest to oczywiste dla badaczy. „Po prostu dostajesz trochę zachęty z danych, a potem myślisz, że to jest ścieżka do zejścia na dół”, mówi Pashler. „Nie zdajesz sobie sprawy, że masz 27 różnych opcji i wybrałeś tę, która dała Ci najbardziej przyjemne lub interesujące wyniki, a teraz angażujesz się w coś, co wcale nie jest obiektywną reprezentacją danych. ”
Myślę, że tego rodzaju prace eksploracyjne są powszechne i często hipotezy są konstruowane na podstawie tej części analizy. Istnieje całe podejście ( EDA ) poświęcone temu procesowi:
Analiza danych eksploracyjnych została promowana przez Johna Tukeya, aby zachęcić statystyków do zbadania danych i ewentualnie sformułowania hipotez, które mogą prowadzić do gromadzenia nowych danych i eksperymentów
Wygląda na to, że każdy proces eksploracyjny przeprowadzony bez uprzedniej hipotezy ma skłonność do generowania fałszywych hipotez.
Zauważ, że powyższy opis EDA faktycznie mówi new data collection and experiments
. Rozumiem, że po zebraniu nowych danych właściwa jest analiza danych potwierdzających (CDA). Nie sądzę jednak, aby to rozróżnienie było bardzo jasne i chociaż idealna byłaby separacja EDA i CDA, z pewnością istnieją pewne okoliczności, w których nie jest to możliwe. Chciałbym powiedzieć, że ścisłe przestrzeganie tego rozdziału jest rzadkością i większość praktykujących wcale nie zgadza się z paradygmatem EDA.
Więc moje pytanie brzmi: czy EDA (lub jakikolwiek nieformalny proces eksploracji danych) sprawia, że bardziej prawdopodobne jest zakochanie się w błędach strzelców wyborowych w Teksasie?