| x¯- 100 |
Fisher pomyślał, że wartość p można interpretować jako ciągłą miarę dowodów przeciwko hipotezie zerowej . Nie ma określonej stałej wartości, przy której wyniki stałyby się „znaczące”. Sposób, w jaki zwykle staram się przekazać to ludziom, polega na wskazaniu, że dla wszystkich intencji i celów p = 0,049 ip = 0,051 stanowią identyczną ilość dowodów przeciwko hipotezie zerowej (por. Odpowiedź Henrika tutaj ) .
Z drugiej strony, Neyman i Pearson uważali, że można wykorzystać wartość p jako część sformalizowanego procesu decyzyjnego . Pod koniec dochodzenia musisz albo odrzucić hipotezę zerową, albo nie odrzucić hipotezy zerowej. Ponadto hipoteza zerowa może być prawdziwa lub nieprawdziwa. Istnieją więc cztery teoretyczne możliwości (chociaż w każdej sytuacji są tylko dwie): możesz podjąć właściwą decyzję (nie odrzucić prawdziwej - lub odrzucić fałszywą - zerową hipotezę) lub możesz stworzyć typ Błąd I lub typu II (odpowiednio przez odrzucenie prawdziwej wartości zerowej lub odrzucenie fałszywej hipotezy zerowej). (Zauważ, że wartość p nie jest tym samym, co współczynnik błędu typu I, o którym tu mówięαp < α
Podejścia Fisherian i Neyman-Pearson nie są takie same . Głównym założeniem frameworka Neymana-Pearsona jest to, że pod koniec studiów musisz podjąć decyzję i odejść. Podobno badacz zwrócił się kiedyś do Fishera z „nieistotnymi” wynikami, pytając go, co powinien zrobić, a Fisher powiedział „idź zdobyć więcej danych”.
Osobiście uważam, że elegancka logika podejścia Neymana-Pearsona jest bardzo atrakcyjna. Ale nie sądzę, że zawsze jest to właściwe. Moim zdaniem, należy wziąć pod uwagę co najmniej dwa warunki, aby rozważyć ramy Neymana-Pearsona:
- Powinna istnieć pewna konkretna hipoteza alternatywna ( wielkość efektu ), na której ci zależy z jakiegoś powodu. (Nie dbam o to, jaki jest rozmiar efektu, jaki jest twój powód, czy jest uzasadniony czy spójny itp., Tylko że go masz).
- Powinny istnieć pewne powody, by podejrzewać, że efekt będzie „znaczący”, jeśli alternatywna hipoteza jest prawdziwa. (W praktyce oznacza to zwykle, że przeprowadziłeś analizę mocy i posiadasz wystarczającą ilość danych).
Gdy te warunki nie są spełnione, wartość p można nadal interpretować zgodnie z pomysłami Fishera. Co więcej, wydaje mi się prawdopodobne, że przez większość czasu te warunki nie są spełnione. Oto kilka prostych przykładów, które przychodzą na myśl, w których przeprowadzane są testy, ale powyższe warunki nie są spełnione:
- Omówna ANOVA dla modelu regresji wielokrotnej (można dowiedzieć się, w jaki sposób wszystkie hipotezowane niezerowe parametry nachylenia łączą się, tworząc parametr niecentralności dla rozkładu F , ale nie jest to wcale intuicyjne i wątpię w to, że ktokolwiek czy to)
- W.
- wartość testu jednorodności wariancji (np . test Levene'a ; takie same komentarze jak powyżej)
- wszelkie inne testy sprawdzające założenia itp.
- Testy t zmiennych towarzyszących innych niż zmienna objaśniająca będąca głównym przedmiotem zainteresowania w badaniu
- badania wstępne / eksploracyjne (np. badania pilotażowe)