To, co nazywamy hakowaniem P, polega na wielokrotnym stosowaniu testu istotności i tylko raportowaniu wyników istotności. To, czy jest to dobre czy złe, zależy od sytuacji.
Aby to wyjaśnić, zastanówmy się nad prawdziwymi efektami w kategoriach bayesowskich, zamiast hipotez zerowych i alternatywnych. Dopóki uważamy, że nasze efekty zainteresowania pochodzą z ciągłego rozkładu, wiemy, że hipoteza zerowa jest fałszywa. Jednak w przypadku testu dwustronnego nie wiemy, czy jest on dodatni czy ujemny. W tym świetle możemy myśleć o wartościach p dla testów dwustronnych jako miary tego, jak silny jest dowód, że nasze oszacowanie ma właściwy kierunek (tj. Pozytywny lub negatywny wpływ).
p<α
Teraz zastanów się, co się stanie, gdy będziesz wracać, aby uzyskać więcej danych. Za każdym razem, gdy otrzymujesz więcej danych, zwiększa się twoje prawdopodobieństwo uzyskania prawidłowego kierunku pod warunkiem, że wystarczająca ilość danych wzrośnie. W ramach tego scenariusza powinniśmy zdać sobie sprawę z tego, że zdobywając więcej danych, chociaż w rzeczywistości zwiększamy prawdopodobieństwo błędu typu I, zmniejszamy również prawdopodobieństwo błędnego przyjęcia niewłaściwego kierunku.
Weź to w przeciwieństwie do bardziej typowego nadużywania hakowania P; testujemy setki wielkości efektów, które mają duże prawdopodobieństwo, że będą bardzo małe i zgłaszamy tylko te istotne. Zauważ, że w tym przypadku, jeśli wszystkie efekty są małe, mamy prawie 50% szansy na błędne określenie kierunku, kiedy deklarujemy znaczenie.
Oczywiście wytworzone wartości p z podwojenia danych nadal powinny pochodzić z ziarenka soli. Chociaż ogólnie nie powinieneś mieć problemu z tym, że ludzie zbierają więcej danych, aby mieć większą pewność co do wielkości efektu, można to wykorzystać w inny sposób. Na przykład sprytny PI może zdać sobie sprawę, że zamiast zebrać wszystkie 100 punktów danych naraz, mogliby zaoszczędzić sporo pieniędzy i zwiększyć moc, najpierw zbierając 50 punktów danych, analizując dane, a następnie zbierając kolejne 50, jeśli nie jest to istotne . W tym scenariuszu zwiększają prawdopodobieństwo błędnego wskazania kierunku efektu pod warunkiem zadeklarowania istotności, ponieważ bardziej prawdopodobne jest błędne określenie kierunku efektu przy 50 punktach danych niż przy 100 punktach danych.
I wreszcie, należy rozważyć konsekwencje nie coraz więcej danych, gdy mamy nieznaczny efekt. Oznaczałoby to, że nigdy nie zbieramy więcej informacji na ten temat, co tak naprawdę nie popchnie nauki do przodu, prawda? Jedno słabe badanie zabiłoby całe pole.