Co Fisher rozumie przez ten cytat?

14

Cały czas widzę ten słynny cytat, ale za każdym razem nie rozumiem podkreślonej części.

Człowiek, który „odrzuca” hipotezę prowizorycznie, jako zwyczajowa praktyka, gdy jej znaczenie jest na poziomie 1% lub wyższym, z pewnością zostanie pomylony z nie więcej niż 1% takich decyzji. Gdy hipoteza jest prawidłowa, pomyli się tylko w 1% tych przypadków, a gdy jest nieprawidłowa, nigdy nie pomyli się w odrzuceniu. [...] Jednak obliczenia są absurdalnie akademickie, ponieważ w rzeczywistości żaden pracownik naukowy nie ma ustalonego poziomu znaczenia, z jakim z roku na rok i we wszystkich okolicznościach odrzuca hipotezy; raczej zwraca uwagę na każdy konkretny przypadek w świetle swoich dowodów i pomysłów.Nie należy zapominać, że przypadki wybrane do zastosowania testu są oczywiście wysoce wybranym zestawem i że warunki wyboru nie mogą być określone nawet dla jednego pracownika; ani też, że w użytym argumencie nie byłoby oczywiste, aby ktoś wybrał rzeczywisty poziom znaczenia wskazany w konkretnej próbie, tak jakby to był jego nawyk dożywotniego używania właśnie tego poziomu.

(Metody statystyczne i wnioskowanie naukowe, 1956, s. 42–45)

Mówiąc dokładniej, nie rozumiem

Dlaczego przypadki zastosowania testu są „wysoce wybrane”? Powiedz, że zastanawiasz się, czy średnia wysokość osób w danym obszarze jest mniejsza niż 165 cm, i zdecyduj się na przeprowadzenie testu. O ile mi wiadomo, standardowa procedura polega na pobieraniu losowych próbek z tego obszaru i mierzeniu ich wysokości. Jak można to bardzo wybrać?
Załóżmy, że przypadki są wysoce wybrane, ale jak to się ma do wyboru poziomu istotności? Rozważmy ponownie powyższy przykład, jeśli twoja metoda próbkowania (przypuszczam, że to, co Fisher określa jako warunki selekcji ) jest wypaczona i w jakiś sposób faworyzuje wysokich ludzi, wtedy całe badanie jest zrujnowane, a subiektywne określenie poziomu istotności nie może go uratować.
W rzeczywistości nawet nie wiem, do czego odnosi się „rzeczywisty poziom znaczenia wskazany w konkretnej próbie”. Czy jest to wartość tego eksperymentu, jakaś wstępnie ustawiona wartość, jak (nie) słynny 0,05, czy coś innego? $p$

— nalzok
źródło

15

Oto moja parafraza tego, co mówi Fisher w odważnym cytacie. Nie należy zapominać, że dość dużo wybiera się do sprawdzenia, jaką hipotezę należy przetestować, tak bardzo, że nawet dla decyzji jednej osoby nie można określić wszystkiego. Nie należy również zapominać, że z wyżej wymienionych powodów nie można zawsze decydować o poziomie istotności próby w taki sam sposób, jak na całe życie.

Wybrano hipotezę naukową jako wartą przetestowania w stosunku do wielu innych konkurencyjnych hipotez ze względu na uprzedzenia badacza i ich obecny stan wiedzy. W Hipotezy są „wysoce wybrany”, a nie z próbek; te hipotezy są przypadki, w których stosujemy testów.
Proces wyboru hipotez wpływa na nasz poziom istotności. Jeśli jesteśmy bardzo pewni hipotezy, powinno to uczynić poziom istotności mniej rygorystycznym, aby nas zadowolić. Jeśli nie jesteśmy pewni, istnieje większy ciężar dowodu. W grę wchodzą również inne czynniki, takie jak błąd typu I, który jest gorszy niż typ II w badaniach leków.
Myślę, że kiedy mówi „wskazany przez”, oznacza po prostu „wybrany dla”. Tak, jest to wartość zadana, w której odrzucamy hipotezę, jeśli wartość p jest bardziej ekstremalna.

— Drew N
źródło

10

Przypadki, do których odnosi się Fisher, to nie obserwacje, ale testy. Oznacza to, że wybieramy hipotezy do przetestowania. Nie tylko testujemy losowe hipotezy - opieramy je na obserwacji, literaturze, teoriach naukowych i tak dalej.

Jeśli zrobił testów losowych hipotez, a następnie kilka razy jesteś w błędzie (w pierwszym zdaniu swojego cytat) będzie 1% (lub cokolwiek wartość jest wybrana). Np. Jeśli przetestujemy takie hipotezy

Parzystość numeru ubezpieczenia społecznego danej osoby jest związana z jego IQ
Blond włosy rzucają Frisbees lepiej niż ciemnowłosa
Czas na uzyskanie odpowiedzi w Cross Validated jest związany z liczbą sylab w Twoim imieniu.

I przetestowaliśmy całą ich grupę na 1%, odrzucilibyśmy zero przez około 1% czasu i robiliśmy to niepoprawnie. (Chyba że oczywiście mam coś z powyższymi bzdurami).

Kiedyś widziałem artykuł o kolorze włosów i rzucaniu Frisbee - i znalazłem różnicę! Dlatego nazywam to „badaniami Frisbee”.

Ale najbardziej podoba mi się cytat:

w rzeczywistości żaden pracownik naukowy nie ma ustalonego poziomu znaczenia, z jakim z roku na rok, i we wszystkich okolicznościach, odrzuca hipotezy; raczej zwraca uwagę na każdy konkretny przypadek w świetle swoich dowodów i pomysłów.

Musi wirować w grobie.

— Peter Flom - Przywróć Monikę
źródło

4

To dobra odpowiedź, ale waham się postrzegać „badania Frisbee” jako złe rzeczy. Tak długo, jak metodologie są stosowane właściwie (biorąc pod uwagę wielkość efektu itp.), Uważam wynik za możliwy. Mam na myśli, że uważa się, że kolor włosów nie ma nic wspólnego z rzucaniem Frisbee, ale przyjęto, że Ziemia jest w centrum wszechświata aż setki lat temu! Możemy krytykować ludzi za złe postępowanie, ale nie powinniśmy winić nikogo za zadawanie pytań. Biorąc to pod uwagę, zgadzam się, że niektóre hipotezy są mniej przydatne niż inne, ale nadal mogą być poprawne .

— nalzok

Mogą to być również błędy typu I.

— Peter Flom - Przywróć Monikę

1

Powiązane: xkcd.com/882

— jkdev

2

Próbując zobaczyć tło cytatu, doszedłem do wersji książki (nie jestem pewien, która wersja), która ma nieco inny cytat

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

Podejmowane próby wyjaśnienia znaczenia testów mających znaczenie w badaniach naukowych poprzez odniesienie do hipotetycznych częstotliwości możliwych stwierdzeń, opartych na nich, mających rację lub złą, wydają się zatem pomijać istotną naturę takich testów. Człowiek, który „odrzuca” hipotezę prowizorycznie, w ramach zwyczajowej praktyki, gdy jej znaczenie jest na poziomie 1% lub wyższym, z pewnością zostanie pomylony z nie więcej niż 1% takich decyzji. Gdy hipoteza jest prawidłowa, pomyli się tylko w 1% tych przypadków, a gdy jest nieprawidłowa, nigdy nie pomyli się w odrzuceniu. Można zatem dokonać takiego oświadczenia o nierówności. Jednak obliczenia są absurdalnie akademickie, ponieważ w rzeczywistości żaden pracownik naukowy nie ma ustalonego poziomu znaczenia, z jakim z roku na rok i we wszystkich okolicznościach, odrzuca hipotezy; raczej zwraca uwagę na każdy konkretny przypadek w świetle swoich dowodów i pomysłów. Co więcej, obliczenia opierają się wyłącznie na hipotezie, która w świetle dowodów często nie jest wcale uznawana za prawdziwą, tak że rzeczywiste prawdopodobieństwo błędnej decyzji, zakładając, że takie zdanie może mieć jakiekolwiek znaczenie, może być znacznie mniej niż częstotliwość określająca poziom istotności. Również dla praktycznego człowieka, który odrzuca hipotezę, jest to oczywiście kwestia obojętności, z jakim prawdopodobieństwem może zostać skłoniony do fałszywej akceptacji hipotezy, ponieważ w jego przypadku nie akceptuje jej. często nie jest w ogóle uważany za prawdziwy, tak więc faktyczne prawdopodobieństwo błędnej decyzji, zakładając, że takie zdanie ma jakiekolwiek znaczenie, może być znacznie mniejsze niż częstotliwość określająca poziom istotności. Również dla praktycznego człowieka, który odrzuca hipotezę, jest to oczywiście kwestia obojętności, z jakim prawdopodobieństwem może zostać skłoniony do fałszywej akceptacji hipotezy, ponieważ w jego przypadku nie akceptuje jej. często nie jest w ogóle uważany za prawdziwy, tak więc faktyczne prawdopodobieństwo błędnej decyzji, zakładając, że takie zdanie ma jakiekolwiek znaczenie, może być znacznie mniejsze niż częstotliwość określająca poziom istotności. Również dla praktycznego człowieka, który odrzuca hipotezę, jest to oczywiście kwestia obojętności, z jakim prawdopodobieństwem może zostać skłoniony do fałszywej akceptacji hipotezy, ponieważ w jego przypadku nie akceptuje jej.

Wydaje mi się to krytyką, aby użyć matematycznego wyrażenia możliwości odrzucenia, błędów typu I, jako pewnego rygorystycznego argumentu. Wyrażenia te często nie są dobrym wyrażeniem tego, co jest istotne, ani też nie są rygorystyczne.

Dlaczego przypadki zastosowania testu są „wysoce wybrane”?

Wydaje się, że odnosi się to do zdania

Co więcej, obliczenia opierają się wyłącznie na hipotezie, która w świetle dowodów często nie jest uważana za prawdę

Nie jesteśmy obojętni na testowaną hipotezę, a często testowana hipoteza nie jest uważana za prawdziwą.
jak to się ma do wyboru poziomu istotności?

Dotyczy to

tak, że rzeczywiste prawdopodobieństwo błędnej decyzji, zakładając, że takie zdanie ma jakiekolwiek znaczenie, może być znacznie mniejsze niż częstotliwość określająca poziom istotności

Wartość p to tylko częstotliwość popełniania błędu, gdy hipoteza zerowa jest prawdziwa. Ale rzeczywista częstotliwość popełniania błędu będzie inna (niższa).
jaki jest „rzeczywisty poziom znaczenia wskazany w konkretnej próbie”?

Uważam, że ta część odnosi się do pewnego rodzaju hackowania wartości p. Zmieniając poziom istotności, alfa, po wystąpieniu obserwacji, aby dopasować obserwowaną wartość p, i udawaj, że była to wartość odcięcia od samego początku.

— Sextus Empiricus
źródło