Istnieje pewna szkoła myślenia, zgodnie z którą najbardziej rozpowszechnionym podejściem do testowania statystycznego jest „hybryda” między dwoma podejściami: podejściem Fishera i podejściem Neymana-Pearsona; te dwa podejścia, jak głosi twierdzenie, są „niezgodne”, a zatem wynikowa „hybryda” jest „niespójnym miszmaszem”. Podam poniżej bibliografię i kilka cytatów, ale na razie wystarczy powiedzieć, że wiele na ten temat napisano w Wikipedii na temat testowania hipotez statystycznych . Tutaj na CV, ten punkt wielokrotnie powtarzał @Michael Lew (patrz tutaj i tutaj ).
Moje pytanie brzmi: dlaczego twierdzi się, że metody F i NP są niezgodne i dlaczego hybryda jest niespójna? Zauważ, że przeczytałem co najmniej sześć antyhybrydowych artykułów (patrz poniżej), ale nadal nie rozumiem problemu lub argumentu. Zauważ też, że nie sugeruję debatowania, czy F lub NP jest lepszym podejściem; nie oferuję też omawiania schematów częstych kontra bayesowskie. Zamiast tego pytanie brzmi: akceptując, że zarówno F, jak i NP są ważnymi i sensownymi podejściami, co jest tak złego w ich hybrydzie?
Oto jak rozumiem sytuację. Podejście Fishera polega na obliczeniu wartości i potraktowaniu jej jako dowodu przeciwko hipotezie zerowej. Im mniejsze , tym bardziej przekonujące dowody. Badacz powinien połączyć te dowody ze swoją podstawową wiedzą, zdecydować, czy jest wystarczająco przekonujący i postępować odpowiednio. (Zauważ, że poglądy Fishera zmieniały się na przestrzeni lat, ale wydaje się, że ostatecznie do tego się zbliża.) Natomiast podejście Neymana-Pearsona polega na wybraniu wyprzedzeniem, a następnie sprawdzeniu, czy; jeśli tak, nazwij to znaczącym i odrzuć hipotezę zerową (tutaj pomijam dużą część historii NP, która nie ma znaczenia dla bieżącej dyskusji). Zobacz także doskonałą odpowiedź @gung w temacie Kiedy używać frameworka Fisher i Neyman-Pearson?
Podejście hybrydowe polega na obliczeniu wartości , zgłoszeniu jej (domyślnie przy założeniu, że im mniejsza, tym lepsza), a także nazwaniu wyników znaczącymi, jeśli (zwykle ) i nieistotnymi inaczej. To ma być niespójne. Jak to może być nieważne robić dwie ważne rzeczy jednocześnie, bije mnie.
Jako szczególnie niespójne antyhybrzydyści postrzegają powszechną praktykę zgłaszania wartości jako , lub (lub nawet ), gdzie zawsze wybierana jest najsilniejsza nierówność. Argumentem wydaje się być to, że (a) siły dowodów nie można właściwie oszacować, ponieważ nie podano dokładnego , oraz (b) ludzie mają tendencję do interpretowania liczby prawej w nierówności jako i postrzegają ją jako błąd typu I oceń i to jest złe. Nie widzę tutaj dużego problemu. Po pierwsze, podanie dokładnego jest z pewnością lepszą praktyką, ale nikomu nie zależy, czy wynosi np. lub , więc zaokrąglanie go w skali logarytmicznej nie jest takie złe (a schodzenie poniżej tak nie ma sensu, zobacz Jak zgłaszać małe wartości p? ). Po drugie, jeśli konsensus ma nazywać wszystko poniżej znaczeniem, wówczas poziom błędu wyniesie i , jak @gung wyjaśnia w Interpretacji wartości p w testowaniu hipotez . Chociaż jest to potencjalnie mylący problem, nie wydaje mi się, że jest bardziej mylący niż inne problemy w testach statystycznych (poza hybrydą). Ponadto każdy czytelnik może mieć na myśli swój ulubiony podczas czytania papieru hybrydowego, aw konsekwencji swój własny poziom błędów.Więc o co chodzi?
Jednym z powodów, dla których chcę zadać to pytanie, jest to, że dosłownie boli mnie, jak bardzo artykuł w Wikipedii na temat testowania hipotez statystycznych poświęcony jest hybrydzie lambastingowej. Po Halpinie i Stamie twierdzi, że winien jest pewien Lindquist (jest nawet duży skan jego podręcznika z „błędami” zaznaczonymi na żółto), i oczywiście artykuł wiki o samym Lindquist zaczyna się od tego samego oskarżenia. Ale może coś mi umknęło.
Bibliografia
Gigerenzer, 1993, Superego, ego i id w rozumowaniu statystycznym - wprowadzili termin „hybrydowy” i nazwał go „niespójnym miszmaszem”
- Zobacz także nowsze ekspozycje Gigerenzera i in .: np. Bezmyślne statystyki (2004) i The Null Ritual. Co zawsze chciałeś wiedzieć o testowaniu istotności, ale bałeś się zapytać (2004).
Cohen, 1994, Ziemia jest okrągła ( ) - to bardzo popularny papier z prawie 3k cytowań, głównie o różnych sprawach, ale przychylnie powołując Gigerenzer
Goodman, 1999, W stronę statystyki medycznej opartej na dowodach. 1: Błąd wartości P.
Hubbard i Bayarri, 2003, Zamieszanie w zakresie miar dowodów ( ) w porównaniu z błędami ( ) w klasycznych testach statystycznych - jeden z bardziej wymownych artykułów na temat „hybrydy”
Halpin i Stam, 2006, Wnioskowanie indukcyjne lub zachowanie indukcyjne: Podejście Fishera i Neymana-Pearsona do testów statystycznych w badaniach psychologicznych (1940–1960) [bezpłatnie po rejestracji] - obwinia podręcznik Lindquista z 1940 r. Za wprowadzenie podejścia „hybrydowego”
@Michael Lew, 2006, Zła praktyka statystyczna w farmakologii (i innych podstawowych dyscyplinach biomedycznych): prawdopodobnie nie znasz P - niezła recenzja i przegląd
cytaty
Gigerenzer: To, co stało się zinstytucjonalizowane jako statystyki wnioskowania w psychologii, to nie statystyki fisheryjskie. Jest to niespójna mieszanka niektórych pomysłów Fishera z jednej strony, a niektórych pomysłów Neymana i ES Pearson z drugiej. Nazywam tę mieszankę „hybrydową logiką” wnioskowania statystycznego.
Goodman: Metoda testu hipotezy [Neyman-Pearson] zaoferowała naukowcom targi Faustian - pozornie automatyczny sposób ograniczenia liczby błędnych wniosków na dłuższą metę, ale jedynie poprzez rezygnację z możliwości pomiaru dowodów [a la Fisher] i oceny prawda z jednego eksperymentu.
Hubbard i Bayarri: Klasyczne testy statystyczne to anonimowa hybryda konkurencyjnych i często sprzecznych podejść [...]. W szczególności powszechne jest niedocenianie niezgodności dowodowej wartości Fishera ze stopniem błędu typu I, , statystycznej ortodoksji Neymana-Pearsona. [...] Jako doskonały przykład oszołomienia wynikającego z [tego] mieszania [...] rozważmy powszechnie niedoceniany fakt, że wartość byłego jest niezgodnaz testem hipotezy Neymana-Pearsona, w którym został osadzony. [...] Na przykład Gibbons i Pratt [...] błędnie stwierdzili: „Zgłaszanie wartości P, dokładnej lub w przedziale, w efekcie pozwala każdej osobie wybrać własny poziom istotności jako maksymalne dopuszczalne prawdopodobieństwo błędu typu I. ”
Halpin & Stam: Tekst Lindquista z 1940 r. Był oryginalnym źródłem hybrydyzacji podejść Fishera i Neymana-Pearsona. [...] zamiast stosować się do jakiejkolwiek konkretnej interpretacji testów statystycznych, psychologowie pozostali ambiwalentni, a właściwie w dużej mierze nieświadomi trudności koncepcyjnych związanych z kontrowersjami Fishera i Neymana-Pearsona.
Lew: Mamy hybrydowe podejście, które nie kontroluje poziomów błędów ani nie pozwala na ocenę siły dowodów.