Kiedy używać frameworka Fisher i Neyman-Pearson?

73

Ostatnio dużo czytałem o różnicach między metodą testowania hipotez Fishera a szkołą myślenia Neymana-Pearsona.

Moje pytanie brzmi, ignorując na chwilę obiekcje filozoficzne; kiedy powinniśmy zastosować podejście Fishera do modelowania statystycznego, a kiedy należy zastosować metodę poziomów istotności i tak dalej Neymana-Pearsona? Czy istnieje praktyczny sposób decydowania, który punkt widzenia poprzeć w danym problemie praktycznym?

hypothesis-testing p-value methodology

— Stijn
źródło

Gdzie o tym czytałeś? Proszę cytować swoje źródła.

— xmjx,

8

Zobacz na przykład tutaj ( jstor.org/stable/2291263 ) lub tutaj ( stats.org.uk/statistic-inference/Lenhard2006.pdf ).

— Stijn

83

$|\bar x-100|$

Fisher pomyślał, że wartość p można interpretować jako ciągłą miarę dowodów przeciwko hipotezie zerowej . Nie ma określonej stałej wartości, przy której wyniki stałyby się „znaczące”. Sposób, w jaki zwykle staram się przekazać to ludziom, polega na wskazaniu, że dla wszystkich intencji i celów p = 0,049 ip = 0,051 stanowią identyczną ilość dowodów przeciwko hipotezie zerowej (por. Odpowiedź Henrika tutaj ) .

Z drugiej strony, Neyman i Pearson uważali, że można wykorzystać wartość p jako część sformalizowanego procesu decyzyjnego . Pod koniec dochodzenia musisz albo odrzucić hipotezę zerową, albo nie odrzucić hipotezy zerowej. Ponadto hipoteza zerowa może być prawdziwa lub nieprawdziwa. Istnieją więc cztery teoretyczne możliwości (chociaż w każdej sytuacji są tylko dwie): możesz podjąć właściwą decyzję (nie odrzucić prawdziwej - lub odrzucić fałszywą - zerową hipotezę) lub możesz stworzyć typ Błąd I lub typu II (odpowiednio przez odrzucenie prawdziwej wartości zerowej lub odrzucenie fałszywej hipotezy zerowej). (Zauważ, że wartość p nie jest tym samym, co współczynnik błędu typu I, o którym tu mówię $\alpha$ $p<\alpha$

Podejścia Fisherian i Neyman-Pearson nie są takie same . Głównym założeniem frameworka Neymana-Pearsona jest to, że pod koniec studiów musisz podjąć decyzję i odejść. Podobno badacz zwrócił się kiedyś do Fishera z „nieistotnymi” wynikami, pytając go, co powinien zrobić, a Fisher powiedział „idź zdobyć więcej danych”.

Osobiście uważam, że elegancka logika podejścia Neymana-Pearsona jest bardzo atrakcyjna. Ale nie sądzę, że zawsze jest to właściwe. Moim zdaniem, należy wziąć pod uwagę co najmniej dwa warunki, aby rozważyć ramy Neymana-Pearsona:

Powinna istnieć pewna konkretna hipoteza alternatywna ( wielkość efektu ), na której ci zależy z jakiegoś powodu. (Nie dbam o to, jaki jest rozmiar efektu, jaki jest twój powód, czy jest uzasadniony czy spójny itp., Tylko że go masz).
Powinny istnieć pewne powody, by podejrzewać, że efekt będzie „znaczący”, jeśli alternatywna hipoteza jest prawdziwa. (W praktyce oznacza to zwykle, że przeprowadziłeś analizę mocy i posiadasz wystarczającą ilość danych).

Gdy te warunki nie są spełnione, wartość p można nadal interpretować zgodnie z pomysłami Fishera. Co więcej, wydaje mi się prawdopodobne, że przez większość czasu te warunki nie są spełnione. Oto kilka prostych przykładów, które przychodzą na myśl, w których przeprowadzane są testy, ale powyższe warunki nie są spełnione:

Omówna ANOVA dla modelu regresji wielokrotnej (można dowiedzieć się, w jaki sposób wszystkie hipotezowane niezerowe parametry nachylenia łączą się, tworząc parametr niecentralności dla rozkładu F , ale nie jest to wcale intuicyjne i wątpię w to, że ktokolwiek czy to)
$W$
wartość testu jednorodności wariancji (np . test Levene'a ; takie same komentarze jak powyżej)
wszelkie inne testy sprawdzające założenia itp.
Testy t zmiennych towarzyszących innych niż zmienna objaśniająca będąca głównym przedmiotem zainteresowania w badaniu
badania wstępne / eksploracyjne (np. badania pilotażowe)

— gung
źródło

Mimo że jest to starszy temat, odpowiedź jest bardzo doceniana. +1

— Stijn

+1 Świetna odpowiedź! Jestem pod wrażeniem twojej zdolności do wyjaśniania tych pojęć w tak zwięzły sposób.

— COOLSerdash

1

To naprawdę cudowna odpowiedź, @gung

— Patrick S. Forscher

5

AFAIK Neyman-Pearson nie zastosował fisheryjskich wartości p, a zatem kryterium „p <alfa”. To, co nazywacie „Neyman-Pearson”, to w rzeczywistości „testowanie znaczenia hipotezy zerowej” (hybryda Fishera i NP), a nie czysta teoria decyzji Neymana-Pearsona.

— Frank

„gdyby wartość odniesienia była prawdziwym parametrem populacji.” Mówiąc ściślej, jest to „jeśli rozkład prawdopodobieństwa jest tym, który jest określony w hipotezie zerowej”. Hipoteza zerowa nie określa jedynie statystyk podsumowujących, takich jak średnia, ale określa cały rozkład prawdopodobieństwa. Często rodzina dystrybucji jest uważana za domyślną (np. Rozkład normalny), w którym to momencie określenie parametrów określa rozkład.

— Kumulacja

18

Praktyczność leży w oku patrzącego, ale;

Testy znaczenia Fishera można interpretować jako sposób decydowania, czy dane sugerują jakiś interesujący „sygnał”. Albo odrzucamy hipotezę zerową (która może być błędem typu I), albo w ogóle nic nie mówimy. Na przykład w wielu nowoczesnych aplikacjach „omicznych” ta interpretacja pasuje; nie chcemy popełniać zbyt wielu błędów typu I, chcemy wyciągnąć najbardziej ekscytujące sygnały, choć niektóre z nich możemy przegapić.
Hipoteza Neymana-Pearsona ma sens, gdy istnieją dwie rozłączne alternatywy (np. Bozon Higgsa istnieje lub nie istnieje), między którymi się decydujemy. Oprócz ryzyka błędu typu I, tutaj możemy również popełnić błąd typu II - gdy jest prawdziwy sygnał, ale mówimy, że go nie ma, podejmując decyzję „zerową”. Argumentem NP było to, że nie robiąc zbyt wielu poziomów błędów typu I, chcemy zminimalizować ryzyko błędów typu II.

Często żaden system nie wydaje się idealny - na przykład możesz po prostu oszacować punkt i odpowiadającą mi miarę niepewności. Ponadto, może nie ma znaczenia, którą wersję Państwo używać, ponieważ zgłosić wartość p i pozostawić interpretację testową do czytnika. Aby jednak wybrać jedną z powyższych metod, należy ustalić, czy błędy typu II są istotne dla aplikacji.

— Gość
źródło

5

Chodzi o to, że nie można ignorować różnic filozoficznych. Matematyczna procedura w statystyce nie jest samodzielna jako coś, co stosuje się bez pewnych hipotez, założeń, teorii ... filozofii.

To powiedziawszy, jeśli nalegasz, aby trzymać się filozofii częstych, może być kilka bardzo specyficznych problemów, w których Neyman-Pearson naprawdę powinien zostać wzięty pod uwagę. Wszyscy należeli do klasy powtarzanych testów, takich jak kontrola jakości lub fMRI. Wcześniejsze ustalenie konkretnej alfa i uwzględnienie całego szkieletu typu I, typu II i szkieletu zasilania staje się ważniejsze.

— Jan
źródło

Nie nalegam na trzymanie się statystyk często, ale zastanawiałem się, czy istnieją sytuacje, w których przyjęcie punktu widzenia Fishera lub Neymana-Pearsona może być naturalne. Wiem, że istnieje filozoficzne rozróżnienie, ale może jest też praktyczna strona do rozważenia?

— Stijn

3

OK, właściwie właściwie to, co powiedziałem ... Neyman-Pearson naprawdę był zaniepokojony sytuacjami, w których wykonujesz mnóstwo testów bez żadnego teoretycznego uzasadnienia dla każdego z nich. Punkt widzenia Fishera tak naprawdę nie rozwiązuje tego problemu.

— Jan

1

Rozumiem: wartość p oznacza powiedzenie nam, w co wierzymy (weryfikacja teorii przy użyciu wystarczających danych), podczas gdy podejście Neymana-Pearsona polega na powiedzeniu nam, co mamy robić (podejmowanie najlepszych możliwych decyzji, nawet przy ograniczonych danych). Wydaje mi się więc, że (mała) wartość p jest bardziej rygorystyczna, podczas gdy podejście Neymana-Pearsona jest bardziej pragmatyczne; Prawdopodobnie dlatego wartość p jest częściej używana w odpowiedzi na pytania naukowe, podczas gdy Neyman i Pearson są częściej wykorzystywani w podejmowaniu statystycznych / praktycznych decyzji.

— chaohuang
źródło