Czytałem o wartościach , wskaźnikach błędów typu 1, poziomach istotności, obliczeniach mocy, wielkościach efektów i debacie Fisher vs Neyman-Pearson. To sprawiło, że poczułem się trochę przytłoczony. Przepraszam za ścianę tekstu, ale czułem, że konieczne było przedstawienie mojego obecnego zrozumienia tych pojęć, zanim przejdę do moich faktycznych pytań.
Z tego, co zebrałem, wartość jest po prostu miarą zaskoczenia, prawdopodobieństwo uzyskania wyniku przynajmniej tak ekstremalne, biorąc pod uwagę, że hipoteza zerowa jest prawdziwa. Fisher początkowo miał to być ciągły środek.
W strukturze Neyman-Pearson wybierasz z góry poziom istotności i używasz go jako (arbitralnego) punktu odcięcia. Poziom istotności jest równy poziomowi błędu typu 1. Jest to określone przez częstotliwość długiego przebiegu, tj. Jeśli powtórzyłbyś eksperyment 1000 razy, a hipoteza zerowa jest prawdziwa, około 50 z tych eksperymentów dałoby znaczący efekt, ze względu na zmienność próbkowania. Wybierając poziom istotności, z pewnym prawdopodobieństwem chronimy się przed tymi fałszywymi pozytywami. Wartości tradycyjnie nie pojawiają się w tych ramach.
Jeśli znajdziemy wartość wynoszącą 0,01, nie oznacza to, że współczynnik błędu typu 1 wynosi 0,01, błąd typu 1 jest ustalany z góry. Uważam, że jest to jeden z głównych argumentów w debacie Fisher vs NP, ponieważ wartości p są często zgłaszane jako 0,05 *, 0,01 **, 0,001 ***. Może to wprowadzić w błąd ludzi, którzy twierdzą, że efekt jest znaczący przy określonej wartości p , a nie przy określonej wartości istotności.
Zdaję sobie również sprawę, że wartość jest funkcją wielkości próby. Dlatego nie można go stosować jako pomiaru bezwzględnego. Mała wartość p może wskazywać na niewielki, nieistotny efekt w eksperymencie z dużą próbką. Aby temu przeciwdziałać, ważne jest wykonanie obliczenia wielkości mocy / efektu przy określaniu wielkości próby dla eksperymentu. Wartości P mówią nam, czy jest jakiś efekt, a nie jak duży. Zobacz Sullivan 2012 .
Moje pytanie: Jak mogę pogodzić fakty, że wartość jest miarą zaskoczenia (mniejsza = bardziej przekonująca), a jednocześnie nie może być postrzegana jako miara absolutna?
Jestem zdezorientowany: czy możemy być bardziej pewni co do małej wartości niż dużej? W sensie fisheryjskim powiedziałbym, że tak, jesteśmy bardziej zaskoczeni. W ramach NP wybranie mniejszego poziomu istotności oznaczałoby, że silniej chronimy się przed fałszywymi pozytywami.
Ale z drugiej strony wartości zależą od wielkości próby. Nie są absolutną miarą. Dlatego nie możemy po prostu powiedzieć, że 0,001593 jest ważniejszy niż 0,0439. A jednak to, co wynikałoby z ram Fishera: bylibyśmy bardziej zaskoczeni tak ekstremalną wartością. Istnieje nawet dyskusja na temat tego, że termin „ bardzo znaczący” jest mylący: czy błędem jest odnosić się do wyników jako „bardzo znaczących”?
Słyszałem, że wartości w niektórych dziedzinach nauki są uważane za ważne tylko wtedy, gdy są mniejsze niż 0,0001, podczas gdy w innych dziedzinach wartości około 0,01 są już uważane za bardzo znaczące.
Powiązane pytania:
Dlaczego niższe wartości p nie stanowią więcej dowodów przeciwko zeru? Argumenty z Johansson 2011 (dostarczone przez @amoeba)