Użyteczność wielkości efektu w stosunku do wartości p (jak również innych wskaźników wnioskowania statystycznego) jest rutynowo dyskutowana w mojej dziedzinie - psychologii - a debata jest obecnie „gorętsza” niż normalna z powodów, które są istotne dla twojego pytania. I chociaż jestem pewien, że psychologia niekoniecznie jest najbardziej wyrafinowaną statystycznie dziedziną naukową, łatwo omawiała, badała - a czasem wykazywała - ograniczenia różnych podejść do wnioskowania statystycznego, a przynajmniej tego, w jaki sposób są one ograniczone przez ludzi. Odpowiedzi już opublikowane zawierają dobre spostrzeżenia, ale w przypadku zainteresowania bardziej obszerną listą (i referencjami) powodów za i przeciw każdej z nich, patrz poniżej.
Dlaczego wartości p są niepożądane?
- Jak zauważa Darren James (i jego symulacja), wartości p zależą w dużej mierze od liczby twoich obserwacji (patrz Kirk, 2003)
- Jak zauważa Jon, wartości p reprezentują warunkowe prawdopodobieństwo zaobserwowania danych jako ekstremalne lub bardziej ekstremalne, biorąc pod uwagę, że hipoteza zerowa jest prawdziwa. Ponieważ większość badaczy wolałaby mieć prawdopodobieństwo hipotezy badawczej i / lub hipotezy zerowej, wartości p nie mówią o prawdopodobieństwach, które są najbardziej zainteresowani badaczy (tj. Hipotezie zerowej lub badawczej, patrz Dienes, 2008)
- Wielu, którzy używają wartości p, nie rozumie, co mają na myśli / nie mają na myśli (Schmidt i Hunter, 1997). Odniesienie Michaela Lwa do artykułu Gelmana i Sterna (2006) dodatkowo podkreśla nieporozumienia badaczy dotyczące tego, co można (lub nie można) interpretować na podstawie wartości p. I jakpokazujerelatywnie nowa historia na FiveThirtyEight , nadal tak jest.
- Wartości p nie są świetne w przewidywaniu kolejnych wartości p (Cumming, 2008)
- Wartości p są często źle zgłaszane (częściej zwiększają znaczenie), a błędne zgłaszanie wiąże się z niechęcią do udostępniania danych (Bakker i Wicherts, 2011; Nuijten i in., 2016; Wicherts i in., 2011)
- Wartości p mogą być (i historycznie były) aktywnie zniekształcane poprzez elastyczność analityczną, a zatem są niewiarygodne (John i in., 2012; Simmons i in., 2011)
- Wartości p są nieproporcjonalnie istotne, ponieważ wydaje się, że systemy akademickie nagradzają naukowców za istotność statystyczną nad dokładnością naukową (Fanelli, 2010; Nosek i in., 2012; Rosenthal, 1979)
Dlaczego pożądane są rozmiary efektów?
Zauważ, że interpretuję twoje pytanie jako odnoszące się konkretnie do znormalizowanych rozmiarów efektów, ponieważ, jak mówisz, pozwalają badaczom przekształcić swoje odkrycia w „WSPÓLNY wskaźnik”.
- Jak wskazują Jon i Darren James, rozmiary efektów wskazują na wielkość efektu, niezależnie od liczby obserwacji (American Psychological Association 2010; Cumming, 2014), w przeciwieństwie do podejmowania dychotomicznych decyzji, czy efekt występuje, czy nie.
- Wielkości efektów są cenne, ponieważ umożliwiają metaanalizę, a metaanaliza napędza kumulatywną wiedzę (Borenstein i in., 2009; Chan i Arvey, 2012)
- Wielkości efektów pomagają w planowaniu wielkości próby poprzez analizę a priori mocy , a zatem efektywną alokację zasobów w badaniach (Cohen, 1992)
Dlaczego wartości p są pożądane?
Chociaż rzadziej są one popierane, wartości p mają wiele zalet. Niektóre są dobrze znane i od dawna, podczas gdy inne są stosunkowo nowe.
Wartości p zapewniają wygodny i znany wskaźnik siły dowodów w stosunku do hipotezy zerowej modelu statystycznego.
Prawidłowo obliczone wartości p zapewniają podejmowanie dychotomicznych decyzji (które czasem są konieczne), a wartości p pomagają utrzymać długoterminowo fałszywie dodatnie poziomy błędów na akceptowalnym poziomie (Dienes, 2008; Sakaluk, 2016) [It nie jest całkowicie słuszne stwierdzenie, że wartości P są wymagane do decyzji dychotomicznych. Są one rzeczywiście szeroko stosowane w ten sposób, ale Neyman i Pearson wykorzystali w tym celu „krytyczne regiony” w przestrzeni statystyki testów. Zobacz to pytanie i jego odpowiedzi]
- Wartości p można wykorzystać w celu ułatwienia ciągłego planowania wielkości próby (nie tylko jednorazowej analizy mocy) (Lakens, 2014)
- Wartości p można zastosować w celu ułatwienia metaanalizy i oceny wartości dowodowej (Simonsohn i in., 2014a; Simonsohn i in., 2014b). Zobacz ten post na blogu, aby uzyskać dostępną dyskusję na temat tego, w jaki sposób można rozkładać wartości p w ten sposób, a także ten post CV na powiązaną dyskusję.
- Wartości p można zastosować w celu analizy sądowej w celu ustalenia, czy mogły zostać zastosowane wątpliwe praktyki badawcze i jak powtarzalne wyniki (Schimmack, 2014; patrz także aplikacja Schönbrodta, 2015)
Dlaczego rozmiary efektów są niepożądane (lub przereklamowane)?
Być może najbardziej anty-intuicyjna pozycja dla wielu; dlaczego zgłaszanie znormalizowanych rozmiarów efektów byłoby niepożądane, a przynajmniej przereklamowane?
- W niektórych przypadkach znormalizowane rozmiary efektów to nie wszystko, na co są spreparowane (np. Grenlandia, Schlesselman i Criqui, 1986). W szczególności Baguely (2009) ma ładny opis niektórych powodów, dla których surowe / niestandardowe rozmiary efektów mogą być bardziej pożądane.
- Pomimo ich przydatności do analizy mocy a priori, wielkości efektów nie są w rzeczywistości stosowane niezawodnie w celu ułatwienia skutecznego planowania wielkości próby (Maxwell, 2004)
- Nawet gdy wielkości efektów są wykorzystywane w planowaniu wielkości próby, ponieważ są one zawyżone poprzez uprzedzenie publikacji (Rosenthal, 1979), opublikowane rozmiary efektów są wątpliwe w użytecznym dla niezawodnego planowania wielkości próby (Simonsohn, 2013)
- Szacunki wielkości efektu mogą być - i były - systematycznie błędnie obliczane w oprogramowaniu statystycznym (Levine i Hullet, 2002)
- Wielkości efektów są błędnie wyodrębniane (i prawdopodobnie źle zgłaszane), co podważa wiarygodność metaanaliz (Gøtzsche i in., 2007)
- Wreszcie, korekta błędów stronniczości pod względem wielkości efektu pozostaje nieskuteczna (patrz Carter i in., 2017), co, jeśli uważasz, że stronniczość publikacji istnieje, sprawia, że metaanaliza jest mniej skuteczna.
streszczenie
Podobnie jak w przypadku stwierdzenia Michaela Lwa, wartości p i wielkości efektów to tylko dwa dowody statystyczne; są też inne warte rozważenia. Ale podobnie jak wartości p i wielkości efektów, inne mierniki wartości dowodowej mają wspólne i unikalne problemy. Naukowcy często źle stosują i interpretują przedziały ufności (np. Hoekstra i in., 2014; Morey i in., 2016), na przykład, a wyniki analiz bayesowskich mogą być zniekształcone przez badaczy, podobnie jak przy użyciu wartości p (np. Simonsohn , 2014).
Wszystkie metryki dowodów wygrały i wszystkie muszą mieć nagrody.
Bibliografia
Amerykańskie Stowarzyszenie Psychologiczne. (2010). Podręcznik publikacji Amerykańskiego Towarzystwa Psychologicznego (wydanie 6). Waszyngton, DC: American Psychological Association.
Baguley, T. (2009). Standardowy lub prosty rozmiar efektu: co należy zgłosić ?. British Journal of Psychology, 100 (3), 603–617.
Bakker, M., & Wicherts, JM (2011). (Błędne) raportowanie wyników statystycznych w czasopismach psychologicznych. Metody badań behawioralnych, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., i Rothstein, HR (2009). Wprowadzenie do metaanalizy. West Sussex, Wielka Brytania: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, i Hilgard, J. (2017, 12 sierpnia). Korekta z powodu uprzedzeń w psychologii: Porównanie metod metaanalitycznych. Źródło: osf.io/preprints/psyarxiv/9h3nu
Chan, ME i Arvey, RD (2012). Metaanaliza i rozwój wiedzy. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Podkład energetyczny. Biuletyn psychologiczny, 112 (1), 155-159.
Cumming, G. (2008). Replikacje i przedziały p: wartości p przewidują przyszłość tylko niejasno, ale przedziały ufności są znacznie lepsze. Perspektywy psychologii, 3, 286–300.
Dienes, D. (2008). Zrozumienie psychologii jako nauki: wprowadzenie do wnioskowania naukowego i statystycznego. Nowy Jork, Nowy Jork: Palgrave MacMillan.
Fanelli, D. (2010). „Pozytywne” wyniki zwiększają hierarchię nauk. PloS One, 5 (4), e10068.
Gelman, A., i Stern, H. (2006). Różnica między „znaczącym” a „nieistotnym” nie jest statystycznie istotna. The American Statistician, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., i Tendal, B. (2007). Błędy ekstrakcji danych w metaanalizach wykorzystujących znormalizowane średnie różnice. JAMA, 298 (4), 430–437.
Greenland, S., Schlesselman, JJ, i Criqui, MH (1986). Błędem stosowania znormalizowanych współczynników regresji i korelacji jako miar efektu. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN i Wagenmakers, EJ (2014). Silna błędna interpretacja przedziałów ufności. Biuletyn psychonomiczny i przegląd, 21 (5), 1157-1164.
John, LK, Loewenstein, G., i Prelec, D. (2012). Mierzenie rozpowszechnienia wątpliwych praktyk badawczych z zachętami do mówienia prawdy. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). Znaczenie wielkości efektu. W SF Davis (red.), Podręcznik metod badawczych w psychologii eksperymentalnej (s. 83–105). Malden, MA: Blackwell.
Lakens, D. (2014). Wydajne wykonywanie badań o dużej mocy z analizami sekwencyjnymi. European Journal of Social Psychology, 44 (7), 701–710.
Levine, TR i Hullett, CR (2002). Eta do kwadratu, częściowe do kwadratu eta i błędne zgłaszanie wielkości efektu w badaniach komunikacji. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). Trwałość słabych badań w badaniach psychologicznych: przyczyny, konsekwencje i środki zaradcze. Metody psychologiczne, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, i Wagenmakers, EJ (2016). Błąd polegający na zaufaniu do przedziałów ufności. Biuletyn i przegląd psychonomiczny, 23 (1), 103-123.
Nosek, BA, Spies, JR i Motyl, M. (2012). Utopia naukowa: II. Restrukturyzacja zachęt i praktyk w celu promowania prawdy ponad publikowalność. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). Częstość występowania statystycznych błędów sprawozdawczych w psychologii (1985–2013). Metody badań behawioralnych, 48 (4), 1205-1226.
Rosenthal, R. (1979). Problem z szufladą plików i tolerancja dla pustych wyników. Biuletyn psychologiczny, 86 (3), 638-641.
Sakaluk, JK (2016). Odkrywanie drobnych, potwierdzanie dużych: Alternatywny system dla nowych statystyk służący rozwojowi skumulowanych i powtarzalnych badań psychologicznych. Journal of Experimental Social Psychology, 66, 47-54.
Schimmack, U. (2014). Kwantyfikacja rzetelności badań statystycznych: wskaźnik powtarzalności. Źródło: http://www.r-index.org
Schmidt, Floryda i Hunter, JE (1997). Osiem powszechnych, ale fałszywych zastrzeżeń do przerwania testowania istotności w analizie danych badawczych. W LL Harlow, SA Mulaik i JH Steiger (Red.), Co jeśli nie byłoby testów istotności? (str. 37–64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-Checker: Analizator p-wartości jeden dla wszystkich. Źródło: http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Fałszywie pozytywna psychologia: Nieujawniona elastyczność w gromadzeniu i analizie danych pozwala przedstawić wszystko jako tak znaczące. Nauki psychologiczne, 22 (11), 1359-1366.
Simonsohn, U. (2013). Szaleństwo napędzania replik na podstawie obserwowanego rozmiaru efektu. Źródło: http://datacolada.org/4
Simonsohn, U. (2014). Hakowanie z tyłu. Źródło: http://datacolada.org/13 .
Simonsohn, U., Nelson, LD i Simmons, JP (2014). Krzywa P: Klucz do szuflady na pliki. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD i Simmons, JP (2014). Krzywa P i wielkość efektu: Korekta odchylenia publikacji przy użyciu tylko istotnych wyników. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M., i Molenaar, D. (2011). Chęć dzielenia się danymi badawczymi jest związana z siłą dowodów i jakością raportowania wyników statystycznych. PloS One, 6 (11), E26828.