Odnośniki zawierające argumenty przeciwko testowaniu znaczenia hipotezy zerowej?

W ciągu ostatnich kilku lat przeczytałem wiele artykułów opowiadających się przeciwko stosowaniu testowania istotności hipotezy zerowej w nauce, ale nie myślałem o utrzymywaniu trwałej listy. Kolega niedawno poprosił mnie o taką listę, więc pomyślałem, że poproszę wszystkich, aby pomogli ją zbudować. Na początek, oto co mam do tej pory:

Johansson (2011) „Zdrowaś niemożliwe: wartości p, dowody i prawdopodobieństwo”.
Haller i Kraus (2002) „Błędna interpretacja znaczenia: problem, który uczniowie dzielą ze swoimi nauczycielami”.
Wagenmakers (2007) „Praktyczne rozwiązanie wszechobecnego problemu wartości p”.
Rodgers (2010) „Epistemologia modelowania matematycznego i statystycznego: cicha rewolucja metodologiczna”.
Dixon (1998) „Dlaczego naukowcy cenią wartości p”.
Glover i Dixon (2004) „Wskaźniki wiarygodności: prosta i elastyczna statystyka dla psychologów empirycznych”.

— Mike Lawrence
źródło

To nie jest w 100% istotne, więc nie zamieszczam tego jako odpowiedzi. Ale, JPA Ioannidis, Dlaczego większość opublikowanych wyników badań jest fałszywa , PLoS Med 2 (8): e124, 2005. jest warte przeczytania.

— kardynał

Znaną książką ekonomistów jest Ziliak, Stephen T. i Deirdre Nansen Mccloskey. Kult o znaczeniu statystycznym: jak standardowy błąd kosztuje nas miejsca pracy, sprawiedliwość i życie. University of Michigan Press, 2008.

— Waldemar

Jaki jest tutaj cel?

— Aksakal

W marcu 2016 r. ASA wydała oficjalne „Oświadczenie w sprawie wartości p” .

— Kenny LJ

Na tej stronie znajduje się wiele odniesień (w tym komentarze): lesswrong.com/lw/g13/against_nhst . Więcej referencji w odpowiedzi Glen_b tutaj: stats.stackexchange.com/questions/142533 .

— ameba mówi Przywróć Monikę

Chris Fraley nauczył całego kursu historii debaty (link wydaje się być zepsuty, mimo że nadal znajduje się na jego oficjalnej stronie; tutaj jest kopia w Archiwum internetowym ). Jego podsumowanie / konkluzja jest tutaj (ponownie, zarchiwizowana kopia ). Według strony domowej Fraleya, ostatni raz uczył tego kursu w 2003 roku.

Poprzedza tę listę „uprzedzeniem instruktora”:

Chociaż moim celem jest ułatwianie ożywionej, głębokiej i uczciwej dyskusji na temat omawianych kwestii, uważam, że od samego początku konieczne jest wyraźne uprzedzenie. Paul Meehl stwierdził kiedyś, że „Sir Ronald [Fisher] nas oczarował, zahipnotyzował i poprowadził nas ścieżką wiesiołka. Wierzę, że prawie uniwersalne poleganie na obaleniu hipotezy zerowej jako standardowej metody potwierdzania teorii merytorycznych w miękkim obszary to straszna pomyłka, jest w zasadzie nieudolna, zła strategia naukowa i jedna z najgorszych rzeczy, jakie kiedykolwiek wydarzyły się w historii psychologii ”. Powtarzam sentyment Meehla. Jednym z moich celów tego seminarium jest wyjaśnienie, dlaczego tak uważam. Ponadto oczekuję, że do czasu ukończenia tego seminarium

Skopiuję na listę lektur na wypadek, gdyby strona kursu kiedykolwiek zniknęła:

Tydzień 1. Wprowadzenie: Co to jest test istotności hipotezy zerowej? Fakty, mity i stan naszej nauki

Lyken, DL (1991). Co jest złego w psychologii? W D. Cicchetti i WM Grove (red.), Thinking Clearly about Psychology, vol. 1: Sprawy leżące w interesie publicznym, eseje na cześć Paula E. Meehla (s. 3–39). Minneapolis, MN: University of Minnesota Press.

Tydzień 2. Wczesna krytyka NHST

Meehl, PE (1967). Testowanie teorii w psychologii i fizyce: paradoks metodologiczny. Philosophy of Science, 34, 103-115.

Meehl, PE (1978). Teoretyczne zagrożenia i tabelaryczne gwiazdki: Sir Karl, Sir Ronald i powolny postęp miękkiej psychologii. Journal of Consulting and Clinical Psychology, 46, 806-834.

Rozeboom, WW (1960). Błąd testu istotności hipotezy zerowej. Biuletyn psychologiczny, 57, 416–428.

Bakan, D. (1966). Test znaczenia w badaniach psychologicznych. Biuletyn psychologiczny, 66, 423–437. [opcjonalny]

Tydzień 3. Współczesne krytyki NHST

Cohen, J. (1994). Ziemia jest okrągła (p <0,05). American Psychologist, 49, 997-1003.

Gigerenzer, G. (1993). Superego, ego i id w rozumowaniu statystycznym. W G. Keren i C. Lewis (red.), Podręcznik do analizy danych w naukach behawioralnych: Kwestie metodologiczne (s. 311–339). Hillsdale, NJ: Lawrence Erlbaum Associates.

Schmidt, FL i Hunter, JE (1997). Osiem powszechnych, ale fałszywych zastrzeżeń, do przerwania testowania istotności w analizie danych badawczych. W Lisa A. Harlow, Stanley A. Mulaik i James H. Steiger (red.) Co by było, gdyby nie było testów istotności? (str. 37–64). Mahwah, NJ: Lawrence Erlbaum Associates.

Oakes, M. (1986). Wnioskowanie statystyczne: komentarz dla nauk społecznych i nauk o zachowaniu. Nowy Jork: Wiley. (Rozdział 2 [Krytyka testów istotności]) [opcjonalnie]

Tydzień 4. Obalenie: zwolennicy NHST przychodzą do obrony

Frick, RW (1996). Właściwe zastosowanie testu hipotezy zerowej. Metody psychologiczne, 1, 379–390.

Hagen, RL (1997). Chwaląc test statystyczny hipotezy zerowej. American Psychologist, 52, 15–24.

Wilkinson, L., i grupa zadaniowa ds. Wnioskowania statystycznego. (1999). Metody statystyczne w czasopismach psychologicznych: wytyczne i objaśnienia. American Psychologist, 54, 594-604.

Wainer, H. (1999). Jeden doping do testowania znaczenia hipotezy zerowej. Metody psychologiczne, 6, 212–213.

Mulaik, SA, Raju, NS i Harshman, RA (1997). Jest czas i miejsce na testowanie istotności. W Lisa A. Harlow, Stanley A. Mulaik i James H. Steiger, Eds. Co gdyby nie było testów istotności? (str. 65–116). Mahwah, NJ: Lawrence Erlbaum Associates. [opcjonalny]

Tydzień 5. Obalenie: zwolennicy NHST przychodzą do obrony

Abelson, RP (1997). O zaskakującej długowieczności chłostanych koni: dlaczego istnieje uzasadnienie dla testu istotności. Psychological Science, 8, 12-15.

Krueger, J. (2001). Testowanie znaczenia hipotezy zerowej: O przetrwaniu wadliwej metody. American Psychologist, 56, 16–26.

Scarr, S. (1997). Reguły dowodowe: większy kontekst debaty statystycznej. Psychological Science, 8, 16-17.

Greenwald, AG, Gonzalez, R., Harris, RJ, i Guthrie, D. (1996). Wielkości efektów i wartości p: co należy zgłaszać, a co powielać? Psychophysiology, 33, 175-183.

Nickerson, RS (2000). Testowanie znaczenia hipotezy zerowej: przegląd starej i kontynuowanej kontrowersji. Metody psychologiczne, 5, 241–301. [opcjonalny]

Harris, RJ (1997). Testy istotności mają swoje miejsce. Psychological Science, 8, 8-11. [opcjonalny]

Tydzień 6. Rozmiar efektu

Rosenthal, R. (1984). Procedury metaanalityczne w badaniach społecznych. Beverly Hills, Kalifornia: Sage. [Ch. 2, Definiowanie wyników badań]

Chow, SL (1988). Test istotności czy wielkość efektu? Biuletyn psychologiczny, 103, 105–110.

Abelson, RP (1985). Paradoks wyjaśnienia wariancji: Kiedy trochę jest dużo. Biuletyn psychologiczny, 97, 129–133. [opcjonalny]

Tydzień 7. Moc statystyczna

Hallahan, M., i Rosenthal, R. (1996). Moc statystyczna: pojęcia, procedury i zastosowania. Behaviour Research and Therapy, 34, 489–499.

Sedlmeier, P., i Gigerenzer, G. (1989). Czy badania siły statystycznej mają wpływ na siłę badań? Biuletyn psychologiczny, 105, 309–316.

Cohen, J. (1962). Siła statystyczna anormalnych społecznych badań psychologicznych: przegląd. Journal of Abnormal and Social Psychology, 65, 145-153. [opcjonalny]

Maddock, JE, Rossi, JS (2001). Moc statystyczna artykułów opublikowanych w trzech czasopismach związanych z psychologią zdrowia. Health Psychology, 20, 76-78. [opcjonalny]

Thomas, L. i Juanes, F. (1996). Znaczenie statystycznej analizy mocy: przykład z zachowań zwierząt. Animal Behavior, 52, 856-859. [opcjonalny]

Rossi, JS (1990). Siła statystyczna badań psychologicznych: Co zyskaliśmy przez 20 lat? Journal of Consulting and Clinical Psychology, 58, 646-656. [opcjonalny]

Tukey, JW (1969). Analiza danych: uświęcenie czy praca detektywistyczna? American Psychologist, 24, 83-91. [opcjonalny]

Tydzień 8. Przedziały ufności i testy istotności

Gardner, MJ i DG Altman. 1986. Przedziały ufności zamiast wartości P: Szacowanie zamiast testowania hipotez. British Medical Journal, 292, 746-750.

Cumming, G., i Finch, S. (2001). Elementarz do zrozumienia, wykorzystania i obliczania przedziałów ufności opartych na rozkładach centralnych i niecentralnych. Pomiary edukacyjne i psychologiczne, 61, 532-574.

Loftus, GR i Masson, MEJ (1994). Korzystanie z przedziałów ufności w projektach wewnątrz tematu. Biuletyn psychonomiczny i przegląd, 1, 476–490.

Tydzień 9 [uwaga: pomijamy tę sekcję]. Modelowanie teoretyczne: opracowywanie formalnych modeli zjawisk naturalnych

Haefner, JW (1996). Modelowanie układów biologicznych: zasady i zastosowania. Nowy Jork: International Thomson Publishing. (Rozdziały 1 [Modele systemów] i 2 [Proces modelowania])

Loehlin, JC (1992). Ukryte modele zmiennych: wprowadzenie do analizy czynnikowej, ścieżki i strukturalnej. Hillsdale, NJ: Lawrence Erlbaum Associates. (Rozdział 1 [Modele ścieżki w analizie czynnikowej, ścieżkowej i strukturalnej], s. 1-18]

Grant, DA (1962). Testowanie hipotezy zerowej i strategii badania modeli teoretycznych. Przegląd psychologiczny, 69, 54–61. [opcjonalny]

Binder, A. (1963). Dalsze rozważania na temat testowania hipotezy zerowej oraz strategii i taktyki badania modeli teoretycznych. Przegląd psychologiczny, 70, 107-115. [opcjonalny]

Edwards, W. (1965). Nota taktyczna na temat związków między hipotezami naukowymi i statystycznymi. Biuletyn psychologiczny, 63, 400–402. [opcjonalny]

Tydzień 10. Jakie jest znaczenie prawdopodobieństwa? Kontrowersje dotyczące częstotliwości względnej i prawdopodobieństwa subiektywnego

Salsburg, D. (2001). Herbata smakująca: jak statystyki zrewolucjonizowały naukę w XX wieku. Nowy Jork: WH Freeman. (Rozdziały 10, 11 i 12)

Oakes, M. (1986). Wnioskowanie statystyczne: komentarz dla nauk społecznych i nauk o zachowaniu. Nowy Jork: Wiley. (Rozdziały 4, 5 i 6)

Pruzek, RM (1997). Wprowadzenie do wnioskowania bayesowskiego i jego zastosowań. W Lisa A. Harlow, Stanley A. Mulaik i James H. Steiger, Eds. Co gdyby nie było testów istotności? (str. 287-318). Mahwah, NJ: Lawrence Erlbaum Associates.

Rindskoph, DM (1997). Testowanie „małej”, nie zerowej, hipotezy: podejście klasyczne i bayesowskie. W Lisa A. Harlow, Stanley A. Mulaik i James H. Steiger (Eds). Co gdyby nie było testów istotności? (str. 319–332). Mahwah, NJ: Lawrence Erlbaum Associates.

Edwards, W., Lindman, H., Savage, LJ (1963). Bayesowskie wnioskowanie statystyczne dla badań psychologicznych. Przegląd psychologiczny, 70, 193–242. [opcjonalny]

Tydzień 11. Ocena teorii: filozofia nauki oraz testowanie i poprawianie teorii

Meehl, PE (1990). Ocena i zmiana teorii: Strategia obrony Lakatosian i dwie zasady, które ją uzasadniają. Zapytanie psychologiczne, 1, 108-141.

Roberts, S. i Pashler, H. (2000). Jak przekonujące jest dobre dopasowanie? Komentarz do testowania teorii. Przegląd psychologiczny, 107, 358-367.

Tydzień 12. Ocena teorii: filozofia nauki oraz testowanie i poprawianie teorii

Urbach, P. (1974). Postęp i zwyrodnienie w „debacie IQ” (I). British Journal of Philosophy of Science, 25, 99-125.

Serlin, RC i Lapsley, DK (1985). Racjonalność w badaniach psychologicznych: zasada wystarczająca. American Psychologist, 40, 73-83.

Dar, R. (1987). Kolejne spojrzenie na Meehl, Lakatos i praktyki naukowe psychologów. American Psychologist, 42, 145-151.

Gholson, B. & Barker, P. (1985). Kuhn, Lakatos i Laudan: Zastosowania w historii fizyki i psychologii. American Psychologist, 40, 755-769. [opcjonalny]

Faust, D., i Meehl, PE (1992). Używanie metod naukowych do rozwiązywania pytań w historii i filozofii nauki: niektóre ilustracje. Behaviour Therapy, 23, 195–211. [opcjonalny]

Urbach, P. (1974). Postęp i zwyrodnienie w „debacie IQ” (II). British Journal of Philosophy of Science, 25, 235-259. [opcjonalny]

Salmon, WC (1973, maj). Potwierdzenie. Scientific American, 228, 75-83. [opcjonalny]

Meehl, PE (1993). Filozofia nauki: pomoc czy przeszkoda? Psychological Reports, 72, 707-733. [opcjonalnie] Maniki. PT i Secord, PF (1983). Implikacje dla psychologii nowej filozofii nauki. American Psychologist, 38, 399-413. [opcjonalny]

Tydzień 13. Czy tradycja NHST podważyła niepodzielną, skumulowaną bazę wiedzy w psychologii?

Cooper, H., DeNeve, K., i Charlton, K. (1997). Odnalezienie brakującej nauki: Los badań przesłanych do przeglądu przez komisję ds. Ludzi. Psychological Methods, 2, 447-452.

Schmidt, FL (1996). Testy istotności statystycznej i kumulatywnej wiedzy w psychologii: implikacje dla szkolenia badaczy. Metody psychologiczne, 1, 115-129.

Greenwald, AG (1975). Konsekwencje uprzedzeń wobec hipotezy zerowej. Biuletyn psychologiczny, 82, 1-20.

Berger, JO i Berry, DA (1988). Analiza statystyczna i złudzenie obiektywności. American Scientist, 76, 159-165.

Tydzień 14. Replikacja i uczciwość naukowa

Smith, NC (1970). Badania replikacji: zaniedbany aspekt badań psychologicznych. American Psychologist, 25, 970-975.

Sohn, D. (1998). Istotność statystyczna i powtarzalność: dlaczego ta pierwsza nie zwiastuje drugiej. Theory and Psychology, 8, 291-311.

Meehl, PE (1990). Dlaczego streszczenia badań nad teoriami psychologicznymi są często niemożliwe do interpretacji. Raporty psychologiczne, 66, 195-244.

Platt, JR (1964). Silne wnioskowanie. Science, 146, 347-353.

Feynman, RL (1997). Na pewno żartujesz, panie Feynman! Nowy Jork: WW Norton. (Rozdział: Nauka o kultach ładunków).

Rorer, LG (1991). Niektóre mity nauki w psychologii. W D. Cicchetti i WM Grove (red.), Thinking Clearly about Psychology, vol. 1: Sprawy leżące w interesie publicznym, eseje na cześć Paula E. Meehla (s. 61–87). Minneapolis, MN: University of Minnesota Press. [opcjonalny]

Lindsay, RM i Ehrenberg, ASC (1993). Projekt powtórzonych badań. The American Statistician, 47, 217-228. [opcjonalny]

Tydzień 15. Myślenie ilościowe: dlaczego potrzebujemy matematyki (a nie NHST per se) w naukach psychologicznych

Aiken, LS, West, SG, Sechrest, L. i Reno, RR (1990). Szkolenie podyplomowe w zakresie statystyki, metodologii i pomiarów w psychologii: badanie doktorskie programy w Ameryce Północnej. American Psychologist, 45, 721-734.

Meehl, PE (1998, maj). Moc myślenia ilościowego. Zaproszony adres jako odbiorca nagrody James McKeen Cattell na dorocznym spotkaniu American Psychological Society, Washington, DC.

— Michael Bishop
źródło

+1. Interesujące - i dość mówiące - że odczyty zaczynają się i kończą na Meehl.

— whuber

Udało ci się to udostępnić.

— rolando2

Linki do kursu i podsumowania wydają się być zepsute. Informacje można znaleźć w projekcie Archive: web.archive.org/web/20151023151618/http://www.uic.edu/classes/…

— AG

To są doskonałe referencje. Mam prawdopodobnie przydatne materiały na stronie http://biostat.mc.vanderbilt.edu/wiki/pub/Main/FHHandouts/whyBayesian.pdf

— Frank Harrell
źródło

402 cytowań kwestionujących masowe stosowanie zerowej hipotezy Testy istotności w badaniach obserwacyjnych: http://warnercnr.colostate.edu/~anderson/thompson1.html

— Alex
źródło