Podobał mi się przykład autorstwa @ gui11aume (+1), ale może sprawiać wrażenie, że różnica w dwóch wartościach powstaje tylko z powodu różnych reguł zatrzymania stosowanych przez dwóch eksperymentatorów.p
W rzeczywistości uważam, że jest to znacznie bardziej ogólne zjawisko. Zastanów się nad drugim eksperymentatorem w odpowiedzi @ gui11aume: tym, który rzuca monetą sześć razy i obserwuje głowy tylko w ostatnim rzucie. Wyniki wyglądają tak: jaka jest wartość ? Typowym podejściem byłoby obliczenie prawdopodobieństwa, że uczciwa moneta spowoduje jedną lub mniej głów. Istnieje możliwości na ogół z jedną lub kilkoma głowicami, stąd .s 7 64 P = 7 / 64 ≈ 0,109
T.T.T.T.T.H ,
p764P = 7 / 64 ≈ 0,109
Ale dlaczego nie wziąć kolejnej statystyki testowej ? Na przykład w tym eksperymencie zaobserwowaliśmy pięć ogonów z rzędu. Jako statystykę testową weźmy długość najdłuższej sekwencji ogonów. Istnieją możliwości z pięcioma lub sześcioma ogonami z rzędu, stąd .p = 3 / 64 ≈ 0,0473)p = 3 / 64 ≈ 0,047
Jeśli więc w tym przypadku poziom błędu został ustalony na , to wybór statystyki testowej może łatwo uczynić wyniki znaczącymi lub nieistotnymi, a to nie ma nic wspólnego z regułami zatrzymania per se .α = 0,05
Część spekulacyjna
Teraz, filozoficznie, powiedziałbym, że częsty wybór statystyki testowej jest w pewnym sensie podobny do bayesowskiego wyboru wcześniejszego. Wybieramy tę lub inną statystykę testową, ponieważ uważamy, że nieuczciwa moneta zachowa się w ten lub inny sposób (i chcemy mieć moc wykrywającą to zachowanie). Czy nie jest to podobne do nakładania na typy monet?
Jeśli tak, to zasada prawdopodobieństwa mówiąca, że wszystkie dowody są w prawdopodobieństwie, nie koliduje z wartościami , ponieważ wartość jest wtedy nie tylko „ilością dowodów”. To „miara zaskoczenia”, ale coś może być miarą zaskoczenia, jeśli uwzględni to, co byśmy byli zaskoczeni! Wartość próbuje połączyć w jednej skalarnej ilości zarówno dowody, jak i pewnego rodzaju wcześniejsze oczekiwania (jak przedstawiono przy wyborze statystyki testowej). Jeśli tak, to nie należy go porównywać z samym prawdopodobieństwem, a może raczej z późniejszym?p pppp
Byłbym bardzo zainteresowany, aby usłyszeć opinie na temat tej części spekulacyjnej, tutaj lub na czacie.
Zaktualizuj po dyskusji z @MichaelLew
Obawiam się, że mój powyższy przykład nie trafił w sedno tej debaty. Wybór innej statystyki testowej prowadzi również do zmiany funkcji prawdopodobieństwa. Tak więc dwie różne wyliczone powyżej wartości odpowiadają dwóm różnym funkcjom prawdopodobieństwa, a zatem nie mogą być przykładem „zderzenia” zasady prawdopodobieństwa z wartościami . Piękno przykładu @ gui11aume polega na tym, że funkcja prawdopodobieństwa pozostaje dokładnie taka sama, mimo że wartości różnią się.p pppp
Nadal muszę pomyśleć, co to oznacza dla mojej „spekulacyjnej” części powyżej.