Na czym polega problem z testowaniem post hoc?

15

Mój profesor statystyczny twierdzi, że wszystkie książki, na które patrzę, stwierdzają: testowanie post-hoc jest nienaukowe. Najpierw musisz wyprowadzić hipotezę z teorii, a następnie zebrać dane i je przeanalizować.

Ale tak naprawdę nie rozumiem na czym polega problem.

Załóżmy, że widzę dane dotyczące sprzedaży dla różnych kolorów samochodów i formułuję hipotezę, że spośród wielu samochodów o różnych kolorach sprzedanych największa grupa samochodów na ulicy powinna być biała. Więc pewnego dnia siedzę na ulicy i obserwuję wszystkie kolory wszystkich mijanych samochodów. Potem robię testy i znajduję cokolwiek.

Załóżmy teraz, że się nudziłem i pewnego dnia usiadłem na jakiejś ulicy i zanotowałem wszystkie kolory wszystkich przejeżdżających samochodów. Ponieważ uwielbiam wykresy, tworzę ładny histogram i stwierdzam, że białe samochody stanowią największą grupę. Myślę więc, że być może większość samochodów na ulicy jest biała i wykonuje pewne testy.

W jaki sposób i dlaczego wyniki lub interpretacja wyników testu post-hoc różnią się od wyników testu hipotez * opartego na teorii?

_{* Jak nazywa się przeciwieństwo testu post hoc?}

Chciałbym dodać, że większość naszej wiedzy o wszechświecie (Ziemia porusza się wokół Słońca) pochodzi z obserwacji.

Wydaje mi się, że w fizyce jest całkowicie w porządku, aby zakładać, że to nie przypadek, że słońce rośnie na wschodzie przez ostatnie tysiąc lat.

post-hoc

2

Zagadnienia są zilustrowane tutaj i tutaj .

— Scortchi - Przywróć Monikę

@Scortchi Hmm, dziękuję, ale wszystko, co mogę znaleźć, to: „Byłoby to nadużycie w testach statystycznych, co zostało dokładnie wyjaśnione i zademonstrowane w wielu miejscach”. Reszta komentarzy i odpowiedzi wydaje się nie wyjaśniać problemu testów post hoc, ale ogólnie testów.

2

Porównaj odpowiedź ameby (odpowiednik pierwszego scenariusza) z Whuberem (odpowiednik drugiego).

— Scortchi - Przywróć Monikę

3

Tylko uwaga, że przeciwieństwo post-hoc jest a priori. Odpowiedź @whuber w powyższym poście jest dość wyczerpująca, ale możesz spojrzeć na analizę danych eksploracyjnych vs. analizę danych potwierdzających.

— Peter Flom - Przywróć Monikę

Jest to stycznie powiązane, ale może zainteresować osoby czytające to pytanie: andrewgelman.com/2014/12/20/…

— shadowtalker

12

„Wiesz, najbardziej zdumiewająca rzecz przytrafiła mi się dziś wieczorem. Przyjechałem tutaj, w drodze na wykład, i wszedłem przez parking. I nie uwierzysz, co się stało. Widziałem samochód z prawem jazdy tablica ARW 357. Czy możesz sobie wyobrazić? Ze wszystkich milionów tablic rejestracyjnych w stanie, jaka była szansa, że zobaczę tę konkretną dziś wieczorem? Niesamowite! " Richard Feynman

Uważam, że nie jestem w stanie wyjaśnić głębokich technicznych aspektów tego problemu. Myślę jednak, że wiele z nich można sprowadzić do intuicji.

W pierwszym zestawie zaczynasz od pewnej hipotezy, którą weryfikujesz na nowych danych (z zaprojektowanego eksperymentu). Badanie danych dotyczących sprzedaży może doprowadzić do bardzo dobrze opracowanego, dobrze zaprojektowanego eksperymentu, w którym naprawdę możesz zdecydować, jak mocna powinna być twoja odpowiedź (moc statystyczna, wartości p, wielkość próby i wiele innych rzeczy).

W drugim zestawie przede wszystkim nie decydujesz o sile odpowiedzi. To jest jeden problem. Drugi problem polega na tym, że wyodrębnienie hipotezy z tej samej próbki użytej do testów zwiększy w bardzo niekontrolowany sposób szanse, że losowe wzorce będą interpretowane jako cenna informacja. Zauważysz coś (że jest wiele białych samochodów) i zadajesz sobie pytanie, czy jest to znaczące. Chodzi o to, że wybrałeś tylko znaczący fakt widoczny na tej próbce, odrzucając inne hipotezy. W ten sposób stworzyłeś sprzyjające warunki dla niektórych hipotez i przełamałeś założenia większości testów statystycznych apriori.

Nie jest naukowo zachowywać się tak, jakbyś nie wiedział o tym wycieku , i udawać, że jest to eksperyment z wszystkimi jego założeniami, gdy nie jest to prawdą. W tym przypadku naukowa jest analiza post hoc w celu sformułowania hipotezy i zaprojektowania zupełnie nowego eksperymentu w celu jej przetestowania.

— rapaio
źródło

Ale czy eksperyment ustanowiony specjalnie na potrzeby hipotezy nie jest najbardziej ekstremalną formą „sprzyjających” warunków?

1

Jedyną rzeczą, która „sprzyja” eksperymentowi, jest solidność odpowiedzi. I między innymi próbuje „nie faworyzować” konkretnej hipotezy.

— rapaio

4

Jeśli najpierw zbierzesz dane, a następnie zbudujesz teorię na podstawie danych, grozi ci dopasowanie historii do twoich obserwacji. Problem polega na tym, że my, ludzie, jesteśmy wyjątkowo dobrzy w pisaniu opowiadań. Mówiąc inaczej: dowolne dane mogą być „wyjaśnione” przez historię, jeśli historia jest po prostu wystarczająco skomplikowana.

Ten proces dostarcza miłych anegdot. Nie ma jednak powodu, dla którego miałby wyjaśniać rzeczywistość i / lub zapewniać dobre prognozy. Musisz skonfigurować i zweryfikować model dla tego.

xkcd zauważa, że zjawisko to przenika „komentarz” sportowy :

Powiązane jest zjawisko pareidolii : dostrzeganie wzorów tam, gdzie ich nie ma. Zobacz na przykład osoby „Twarz”, które ludzie widzieli we wcześniejszych zdjęciach satelitarnych Marsa:

Ponadto, ponieważ gromadzisz więcej danych, musisz uważać, aby tego nie robić podkręcić swojej historii w jeszcze bardziej dziwny sposób, aby „kontynuować” „wyjaśnianie” twoich obserwacji :

— Stephan Kolassa
źródło

2

Nauka działa poprzez formułowanie hipotez (które są oczywiście motywowane doświadczeniem), tworzenie prognoz na podstawie tych hipotez, a następnie ich testowanie. Czy miałoby sens obserwować coś w przeszłości, uogólnić to spostrzeżenie w teorię, a następnie potraktować samą przeszłość jako rodzaj retroaktywnego eksperymentu, który automatycznie potwierdza teorię? Nie, ponieważ całym pytaniem było, jak dobrze uogólnia twoja teoria, a nie to, czy kiedyś zadziałała. Właśnie dlatego testowanie hipotez sugerowanych przez dane jest uważane za złą naukę.

— dsaxton
źródło

1

Twój profesor i inne odpowiedzi mają rację, że analizy post-hoc mają problemy. Masz jednak rację, że wiele dobrych nauk pochodzi z analizy post-hoc. Kluczową kwestią jest to, że preferowane powinny być właściwie zaprojektowane eksperymenty, a do analizy post-hoc należy podchodzić ostrożnie i za pomocą specjalnych narzędzi, aby zapobiec faktycznym odkryciom przy użyciu fałszywych artefaktów. Artykuł w Wikipedii na temat wskaźnika fałszywych odkryć może dać wgląd w problem.

Podam tylko kilka przykładów:

Jeśli zastosujemy pomiary biometryczne w odniesieniu do światowej populacji bydła, możemy stwierdzić, że bydło ma dwa nozdrza. W rzeczywistości jest to analiza post hoc, ale większość biologii, wulkanologii lub historii została zbudowana w ten sposób. Powodem, dla którego nie odrzucamy faktu, że bydło ma dwa nozdrza, są dowody przemawiające za jego przytłaczaniem.
Pobieramy dane od cieląt urodzonych w poprzednim roku w danej hodowli bydła. Zdajemy sobie sprawę, że w każdy wtorek pod pełnią księżyca ponad 50% nowo narodzonych cieląt stanowiły kobiety - z wyjątkiem świąt państwowych w tym kraju lub zimowych wtorków. Gdybyśmy wcześniej postawili hipotezę, że tego rodzaju dni rodzą więcej samic cieląt, moglibyśmy wykonać test hipotezy i zaakceptować (lub odrzucić) tę hipotezę. Jeśli jednak weźmiemy pod uwagę, że jest to tylko analiza post-hoc, dowody nie wystarczą, aby odrzucić fałszywe zjawisko.

Jest często cytowany artykuł, który ironicznie odrzuca wszelkie dowody na to, że spadochrony są użyteczne jako anegdotyczne - co jest po prostu wyjątkowo złym dowodem opartym na analizie post-hoc.

I wykorzystując dobry przykład użyty w odpowiedzi Stephana Kolassy: kilka ciemnych plam przypominających twarz na Marsie można odrzucić jako pareidolia, ale coś, co odtworzyło Ostatnią Wieczerzę Leonarda Da Vinci w najdrobniejszych szczegółach, nie mogło.

— Pere
źródło

0

Jeśli nie masz teorii popierającej twoje twierdzenia, to nawet jeśli twoje twierdzenie jest potwierdzone, może to być przypadek i nic nie dowodzi. Na przykład stwierdzam, że robię nocnika, gdy wschodzi słońce i robię to przez ostatnie 10 lat - w oparciu o te dane, analiza post-hoc pokazuje mi, że istnieje związek między moją nocnikiem a wschodem słońca, podczas gdy to, co istnieje, jest jedynie zbiegiem okoliczności. Słońce nie wschodzi, ponieważ robisz nocnik i odwrotnie.

Życie jest pełne zbiegów okoliczności. Twierdzenia poparte teorią eliminują takie zbiegi okoliczności lub pseudo-relacje.

— Jake
źródło

Jeśli mam teorię, a wyniki pasują do tej teorii, to równie dobrze może to być zbieg okoliczności. Dlatego teorie nie mogą być zweryfikowane, tylko sfałszowane. I faktycznie istnieje związek między porannymi wypróżnieniami a wschodem słońca, ponieważ ruchy słońca dyktują dobowy rytm, co z kolei wpływa na wypróżnienia.

0

Oto intuicja, która może ci się przydać. Jeśli jesteś znudzony i liczysz samochody, wciąż musisz pamiętać, że to, co widzisz, jest wynikiem losowego procesu. W szczególności mogły to być samochody różne kolory.

Dlatego jeśli sformułujesz hipotezę, że najczęstszym kolorem jest biały, być może dlatego, że tak naprawdę jest, ale może również być tak, że najczęstszym kolorem jest czerwony, ale w tym konkretnym eksperymencie najczęściej był biały (co zawsze jest możliwe) ).

Teraz, jeśli wykonasz post-hoc , będziesz testować, czy biel jest najczęstsza, a biorąc pod uwagę, że dane sugerują tę samą hipotezę, możesz z dużym prawdopodobieństwem stwierdzić, że biel jest najczęstsza ... Przynajmniej dane nigdy nie będą sprzeczne hipoteza (post-hoc).

— AG
źródło