Zastrzeżenie: Uważam, że ta odpowiedź jest rdzeniem całego argumentu, więc warto ją omówić, ale nie w pełni zbadałem ten problem. Dlatego z zadowoleniem przyjmuję poprawki, udoskonalenia i komentarze.
Najważniejszy aspekt dotyczy danych zbieranych sekwencyjnie. Załóżmy na przykład, że zaobserwowałeś wyniki binarne i widziałeś 10 sukcesów i 5 porażek. Zasada prawdopodobieństwa mówi, że powinieneś dojść do tego samego wniosku na temat prawdopodobieństwa sukcesu, niezależnie od tego, czy zbierałeś dane, dopóki nie osiągnąłeś 10 sukcesów (ujemny dwumianowy) lub przeprowadziłeś 15 prób, z których 10 było sukcesami (dwumianowy) .
Dlaczego to ma takie znaczenie?
Ponieważ zgodnie z zasadą prawdopodobieństwa (a przynajmniej pewną jego interpretacją), jest całkowicie w porządku pozwolić, aby dane wpływały, kiedy zamierzasz przestać zbierać dane, bez konieczności zmiany narzędzi wnioskowania.
Konflikt z metodami sekwencyjnymi
Pomysł, że wykorzystanie danych do podjęcia decyzji o tym, kiedy przestać gromadzić dane bez zmiany narzędzi wnioskowania, jest całkowicie sprzeczny z tradycyjnymi metodami analizy sekwencyjnej. Klasycznym tego przykładem są metody stosowane w badaniach klinicznych. Aby ograniczyć potencjalne narażenie na szkodliwe leczenie, dane są często analizowane w pośrednich momentach przed przeprowadzeniem analizy. Jeśli badanie jeszcze się nie zakończyło, ale naukowcy mają już wystarczające dane, aby stwierdzić, że leczenie działa lub jest szkodliwe, etyka medyczna mówi nam, że powinniśmy przerwać badanie; jeśli leczenie działa, etyczne jest przerwanie badania i rozpoczęcie udostępniania leczenia pacjentom niebędącym badaniem. Jeśli jest to szkodliwe, bardziej etyczne jest zaprzestanie, aby przestać narażać badanych pacjentów na szkodliwe leczenie.
Problem polega na tym, że zaczęliśmy przeprowadzać wiele porównań, więc zwiększyliśmy wskaźnik błędów typu I, jeśli nie dostosujemy naszych metod do uwzględnienia wielu porównań. Nie jest to dokładnie to samo, co tradycyjne problemy z wielokrotnymi porównaniami, ponieważ są to naprawdę wielokrotne porównania częściowe (tj. Jeśli przeanalizujemy dane raz przy 50% zebranych danych i raz przy 100%, te dwie próbki najwyraźniej nie są niezależne!) , ale ogólnie rzecz biorąc, im więcej wykonujemy porównań, tym bardziej musimy zmienić nasze kryteria odrzucania hipotezy zerowej, aby zachować poziom błędu typu I, przy planowaniu większej liczby porównań wymagających więcej dowodów, aby odrzucić zerową.
To stawia badaczy klinicznych przed dylematem; czy chcesz często sprawdzać swoje dane, ale następnie powiększać wymagane dowody, aby odrzucić wartość zerową, czy też chcesz rzadko sprawdzać swoje dane, zwiększając swoją moc, ale potencjalnie nie działając w optymalny sposób w odniesieniu do etyki medycznej (tj. opóźniać wprowadzanie produktu na rynek lub niepotrzebnie narażać pacjentów na szkodliwe leczenie).
Z mojego (być może błędnego) rozumiem, że zasada prawdopodobieństwa wydaje się mówić nam, że nie ma znaczenia, ile razy sprawdzamy dane, powinniśmy wyciągać takie same wnioski. Mówi to w zasadzie, że wszystkie podejścia do sekwencyjnego projektowania prób są całkowicie niepotrzebne; po prostu zastosuj zasadę prawdopodobieństwa i przestań, gdy zgromadzisz wystarczającą ilość danych, aby wyciągnąć wniosek. Ponieważ nie trzeba zmieniać metod wnioskowania, aby dostosować się do liczby przygotowanych analiz, nie ma dylematu między liczbą sprawdzeń a mocą. Bam, rozwiązano całe pole sekwencyjnej analizy (zgodnie z tą interpretacją).
Osobiście bardzo dezorientuje mnie to, że fakt dobrze znany w dziedzinie projektowania sekwencyjnego, ale dość subtelny, to prawdopodobieństwo końcowej statystyki testu jest w dużej mierze zmienione przez regułę zatrzymania; w zasadzie reguły zatrzymywania zwiększają prawdopodobieństwo w sposób nieciągły w punktach zatrzymania. Oto fabuła takiego zniekształcenia; linia przerywana jest plikiem PDF ostatecznej statystyki testu pod wartością zerową, jeśli dane są analizowane dopiero po zebraniu wszystkich danych, natomiast linia ciągła daje rozkład pod wartością zerową statystyki testu, jeśli dane są sprawdzane 4 razy przy danym reguła.
Biorąc to pod uwagę, rozumiem, że zasada prawdopodobieństwa wydaje się sugerować, że możemy wyrzucić wszystko, co wiemy o sekwencyjnym projektowaniu Frequentist i zapomnieć o tym, ile razy analizujemy nasze dane. Oczywiście implikacje tego, szczególnie w dziedzinie projektów klinicznych, są ogromne. Nie zastanawiałem się jednak, w jaki sposób uzasadniają ignorowanie, w jaki sposób reguły zatrzymania zmieniają prawdopodobieństwo ostatecznej statystyki.
Lekką dyskusję można znaleźć tutaj , głównie na końcowych slajdach.