Czy rozmiary efektów naprawdę przewyższają wartości p?


14

Duży nacisk kładzie się na poleganie i zgłaszanie wielkości efektów zamiast wartości p w badaniach stosowanych (np. Cytaty poniżej).

Ale czy nie jest tak, że wielkość efektu, podobnie jak wartość p, jest zmienną losową i jako taka może różnić się w zależności od próbki, gdy powtórzy się ten sam eksperyment? Innymi słowy, pytam, jakie cechy statystyczne (np. Wielkość efektu jest mniej zmienna od próbki do próbki niż wartość p) sprawiają, że rozmiary efektów są lepszymi wskaźnikami pomiaru dowodów niż wartości p?

Powinienem jednak wspomnieć o ważnym fakcie, który oddziela wartość p od wielkości efektu. Oznacza to, że wielkość efektu należy oszacować, ponieważ ma parametr populacji, ale wartość p nie jest niczym do oszacowania, ponieważ nie ma żadnego parametru populacji.

Według mnie wielkość efektu jest po prostu miarą, która w niektórych obszarach badań (np. Badania na ludziach) pomaga przekształcić wyniki badań empirycznych pochodzących z różnych narzędzi pomiarowych opracowanych przez naukowców w jedną wspólną miarę (rzetelnie mówiąc, używając tej miary badania ludzkie można lepiej dopasować klub badań kwantowych).

Może jeśli weźmiemy prostą proporcję jako wielkość efektu, następujące (w R) jest to, co pokazuje przewagę wielkości efektu nad wartościami p? (wartość p zmienia się, ale rozmiar efektu się nie zmienia)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Zauważ, że większość rozmiarów efektów jest liniowo związana ze statystyką testową. Dlatego łatwo jest wykonać testowanie hipotezy zerowej przy użyciu wielkości efektu.

Na przykład statystykę t uzyskaną z projektu sprzed post-post można łatwo przekonwertować na odpowiedni rozmiar efektu d Cohena. W związku z tym rozkład d Cohena jest po prostu wersją skalowania dla dystrybucji.

Cytaty:

Ponieważ wartości p są błędnymi wskaźnikami, teoretycznie 100 badań z różnymi wielkościami próby i 100 różnymi wielkościami efektów może mieć tę samą pojedynczą wartość p, a każde 100 badań z tą samą wielkością pojedynczego efektu może mieć 100 różnych wartości dla wartości p .

lub

Wartość p jest losową zmienną, która zmienia się w zależności od próbki. . . . W związku z tym nie jest właściwe porównywanie wartości p z dwóch różnych eksperymentów lub z testów dwóch zmiennych zmierzonych w tym samym eksperymencie i deklarowanie, że jedna jest ważniejsza od drugiej?

Cytaty:

Thompson, B. (2006). Podstawy statystyki behawioralnej: podejście oparte na wglądu. Nowy Jork, NY: Guilford Press.

Good, PI i Hardin, JW (2003). Typowe błędy w statystykach (i jak ich uniknąć). Nowy Jork: Wiley.


12
Nie wyciągam takich samych wniosków z cytatów (że rozmiary efektów są „lepsze” lub powinny być zgłaszane zamiast wartości p). Wiem, że niektórzy ludzie zareagowali przesadnie, wydając takie oświadczenia (takie jak zakaz BASP dla wartości p). To nie jest jedna lub druga sytuacja: chodzi o wskazanie, że wartości p i wielkości efektów dają różne użyteczne informacje. Zwykle nie należy badać bez rozważenia go w kontekście drugiego.
whuber

1
Osobiście uważam, że wystarczy podać szacunek wraz z przedziałem ufności. Daje jednocześnie wielkość efektu (znaczenie praktyczne) i testowanie hipotez (znaczenie statystyczne).
Jirapat Samranvedhya

1
To, czy wartości p lub rozmiary efektów są „lepsze”, zależy od twojej perspektywy. Ten pierwszy wywodzi się z tradycji rybackiego NHST, a drugi z tradycji Neymana-Pearsona. W niektórych dziedzinach (nauki biologiczne, nauki humanistyczne) rozmiary efektów są zwykle bardzo małe, co czyni wartości p atrakcyjnymi. I odwrotnie, jak zauważają inni, wartości p mogą być „wymuszone” mniejsze przez zmiany w projekcie, takie jak zwiększenie N.
HEITZ

3
Czy śrubokręt jest lepszy od młotka?
kjetil b halvorsen

Czy nakrętka przewyższa śrubę?
Sextus Empiricus

Odpowiedzi:


21

Porada, aby podać rozmiary efektów zamiast wartości P, opiera się na fałszywej dychotomii i jest głupia. Dlaczego nie zaprezentujesz obu?

Wnioski naukowe powinny opierać się na racjonalnej ocenie dostępnych dowodów i teorii. Wartości P i obserwowane wielkości efektów same lub razem nie są wystarczające.

Żaden z cytowanych fragmentów, który podajesz, nie jest pomocny. Oczywiście wartości P różnią się w zależności od eksperymentu, siła dowodów w danych zmienia się w zależności od eksperymentu. Wartość p jest po prostu liczbową ekstrakcją tego dowodu za pomocą modelu statystycznego. Biorąc pod uwagę charakter wartości P, bardzo rzadko jest istotne dla celów analitycznych porównanie jednej wartości P z inną, więc być może to właśnie autor cytatu próbuje przekazać.

Jeśli chcesz porównać wartości P, prawdopodobnie powinieneś był wykonać test istotności dla innego układu danych, aby rozsądnie odpowiedzieć na interesujące pytanie. Zobacz następujące pytania: wartości p dla wartości p? a jeśli średnia jednej grupy różni się od zera, a drugiej nie, to czy możemy dojść do wniosku, że grupy są różne?

Odpowiedź na twoje pytanie jest więc złożona. Nie uważam, że dychotomiczne odpowiedzi na dane oparte na wartościach P lub rozmiarach efektów są przydatne, więc czy rozmiary efektów są lepsze od wartości P? Tak, nie, czasem może i zależy to od twojego celu.


Myślę, że lepiej byłoby przedstawić wielkość efektu i przedział ufności, pod warunkiem, że analityk jest w stanie poprawnie określić, jaki znaczący rozmiar efektu ma dla danego badania. Przedział ufności, w przeciwieństwie do wartości p, daje czytelnikowi poczucie zarówno precyzji oszacowania, jak i jego krańcowości.
AdamO,

1
@AdamO Tak, w dużej mierze się zgadzam, ale wartość P ma do zaoferowania dwie rzeczy i nie należy jej pomijać. Jest to wskaźnik siły dowodów w stosunku do wartości zerowej, coś, co można uzyskać tylko z przedziału ufności przez bardzo doświadczone oko, a dokładna wartość P nie zachęca bezpośrednio do dychotomii wewnątrz / na zewnątrz, co robi przedział ufności . Oczywiście funkcja wiarygodności ma zalety w stosunku do obu.
Michael Lew,

14

W kontekście badań stosowanych, rozmiary efektów są konieczne, aby czytelnicy interpretowali praktyczne znaczenie (w przeciwieństwie do istotności statystycznej) wyników. Zasadniczo wartości p są znacznie bardziej wrażliwe na wielkość próby niż rozmiary efektów. Jeśli eksperyment dokładnie mierzy wielkość efektu (tj. Jest wystarczająco bliski oszacowanemu parametrowi populacji), ale daje nieistotną wartość p, wówczas wszystkie rzeczy są równe, zwiększenie wielkości próbki spowoduje taki sam rozmiar efektu, ale niższa wartość p. Można to wykazać za pomocą analiz lub symulacji mocy.

W świetle tego możliwe jest osiągnięcie bardzo znaczących wartości p dla wielkości efektów, które nie mają praktycznego znaczenia. Natomiast projekty badawcze o niskiej mocy mogą wytwarzać nieistotne wartości p dla wielkości efektów o dużym znaczeniu praktycznym.

Trudno jest omówić pojęcia istotności statystycznej względem wielkości efektu bez konkretnej aplikacji w świecie rzeczywistym. Jako przykład rozważmy eksperyment oceniający wpływ nowej metody nauki na średnią ocen uczniów (GPA). Twierdziłbym, że wielkość efektu wynosząca 0,01 punktu oceny ma niewielkie znaczenie praktyczne (tj. 2,50 w porównaniu do 2,51). Zakładając, że próbka liczy 2000 studentów zarówno w grupie leczonej, jak i kontrolnej, oraz odchylenie standardowe populacji wynoszące 0,5 stopnia:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

średnia próbki leczenia = 2,51

średnia próbki kontrolnej = 2,50

wielkość efektu = 2,51 - 2,50 = 0,01

p = 0,53

Zwiększenie liczebności próby do 20 000 studentów i utrzymanie wszystkiego innego na stałym poziomie daje znaczącą wartość p:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

średnia próbki leczenia = 2,51

średnia próbki kontrolnej = 2,50

wielkość efektu = 2,51 - 2,50 = 0,01

p = 0,044

Oczywiście zwiększenie wielkości próbki o rząd wielkości nie jest trywialne! Myślę jednak, że wszyscy możemy się zgodzić, że praktyczna poprawa oferowana przez tę metodę badania jest znikoma. Gdybyśmy polegali wyłącznie na wartości p, moglibyśmy wierzyć inaczej w przypadku n = 20 000.

Osobiście opowiadam się za zgłaszaniem zarówno wartości p, jak i wielkości efektów. I dodatkowe punkty za statystyki T lub F, stopnie swobody i diagnostykę modelu!


2
Darren, pokaż, co dokładnie masz na myśli w R lub czymś takim jak PO.
user138773,

7
@Darrent James Nie ma praktycznego znaczenia dla różnicy między p = 0,065 ip = 0,043 poza niefortunnym założeniem, że p = 0,05 jest jasną linią, której należy przestrzegać. Żadna z wartości P nie jest sama w sobie przekonującym dowodem na coś lub przeciw.
Michael Lew

@Michael Lew Tak, zgadzam się!
Darren James

1
James, biorąc pod uwagę twój kod i wyjaśnienia, wydaje się, że całkowicie źle zrozumiałeś punkt OP. Twój kod R również jest nieprawidłowy! Ponieważ NIE ustawiłeś, var.equal = TRUEdopóki twoje sds są równe. Z tego powodu nie jestem pewien, dlaczego opublikowałeś taką odpowiedź. OP zadaje pytanie, na które przynajmniej obecnie nie ma łatwej odpowiedzi!
user138773,

1
Dodałem var.equal = TRUE do kodu. Ale w tym przypadku nie jest to konieczne. Te same wartości p są uzyskiwane zarówno dla var.equal = TRUE, jak i domyślnego var.equal = FALSE.
Darren James

5

Obecnie pracuję w dziedzinie nauki o danych, a wcześniej pracowałem nad badaniami edukacyjnymi. Podczas gdy przy każdej „karierze” współpracowałem z ludźmi, którzy nie pochodzili z formalnego zaplecza statystycznego, i gdzie nacisk statystyczny (i praktyczny) ma duże znaczenie na wartość p . Nauczyłem się uwzględniać i podkreślać rozmiary efektów w moich analizach, ponieważ istnieje różnica między istotnością statystyczną a istotnością praktyczną.

Ogólnie rzecz biorąc, ludzie, z którymi pracowałem, dbali o jedno: „czy nasz program / funkcja ma wpływ i ma wpływ, tak czy nie?”. Na takie pytanie możesz zrobić coś tak prostego jak test t i zgłosić im „tak, twój program / funkcja robi różnicę”. Ale jak duża lub mała jest ta „różnica”?

Po pierwsze, zanim zacznę zagłębiać się w ten temat, chciałbym podsumować to, o czym mówimy, mówiąc o rozmiarach efektów

Wielkość efektu jest po prostu sposobem na oszacowanie wielkości różnicy między dwiema grupami. [...] Jest to szczególnie cenne dla ilościowego określenia skuteczności konkretnej interwencji w porównaniu z pewnym porównaniem. Pozwala nam wyjść poza uproszczone pytanie: „Czy to działa, czy nie?” do znacznie bardziej wyrafinowanych: „Jak to działa w różnych kontekstach?” Co więcej, kładąc nacisk na najważniejszy aspekt interwencji - wielkość efektu - a nie jego znaczenie statystyczne (które łączy w sobie wielkość efektu i wielkość próby), promuje bardziej naukowe podejście do gromadzenia wiedzy. Z tych powodów wielkość efektu jest ważnym narzędziem w raportowaniu i interpretacji skuteczności.

To rozmiar efektu, głupku: jaki jest rozmiar efektu i dlaczego jest ważny

α

Dlaczego wartość P nie wystarcza?

Istotność statystyczna to prawdopodobieństwo, że zaobserwowana różnica między dwiema grupami wynika z przypadku. Jeżeli wartość P jest większa niż wybrany poziom alfa (np. 0,05), zakłada się, że każdą zaobserwowaną różnicę można wyjaśnić zmiennością próbkowania. Przy wystarczająco dużej próbie test statystyczny prawie zawsze wykazuje znaczącą różnicę, chyba że nie ma żadnego efektu, to znaczy, gdy wielkość efektu wynosi dokładnie zero; jednak bardzo małe różnice, nawet znaczące, często są bez znaczenia. Dlatego zgłaszanie tylko znaczącej wartości P dla analizy nie jest wystarczające, aby czytelnicy w pełni zrozumieli wyniki.

I aby potwierdzić komentarze @ DarrenJames dotyczące dużych rozmiarów próbek

Na przykład, jeśli wielkość próby wynosi 10 000, prawdopodobne jest znalezienie znaczącej wartości P, nawet jeśli różnica w wynikach między grupami jest znikoma i może nie uzasadniać kosztownej lub czasochłonnej interwencji w stosunku do innej. Sam poziom istotności nie przewiduje wielkości efektu. W przeciwieństwie do testów istotności, wielkość efektu jest niezależna od wielkości próbki. Z drugiej strony istotność statystyczna zależy zarówno od wielkości próbki, jak i wielkości efektu. Z tego powodu wartości P uważa się za błędne ze względu na ich zależność od wielkości próby. Czasami statystycznie istotny wynik oznacza tylko, że użyto ogromnej wielkości próby. [Istnieje błędny pogląd, że to zachowanie reprezentuje uprzedzenie wobec hipotezy zerowej.Dlaczego częste testowanie hipotez staje się tendencyjne do odrzucenia hipotezy zerowej przy wystarczająco dużych próbkach? ]

Używanie rozmiaru efektu - lub dlaczego wartość P jest niewystarczająca

Zgłoś zarówno wartość P, jak i rozmiary efektów

Teraz, aby odpowiedzieć na pytanie, czy efekt rozmiarach przełożonego do wartości p ? Twierdziłbym, że każdy z nich służy jako element istotności w analizie statystycznej, którego nie można porównać w takich kategoriach, i powinien być zgłaszany łącznie. Wartość p jest statystyką wskazującą istotność statystyczną (różnicę od rozkładu zerowego), w której wielkość efektu określa słowa, jak duża jest różnica.

Jako przykład, powiedzmy swojego przełożonego, BOB, który nie jest bardzo przyjazny dla statystyki jest ciekaw, czy istnieje znaczący związek między wag (wagi) i mpg (mil na galon). Analizę zaczynasz od hipotez

H.0:βmpsol=0 vs H.ZA:βmpsol0

α=0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

Z danych summarywyjściowych widać, że mamy statystykę t o bardzo małej wartości p . Możemy wygodnie odrzucić hipotezę zerową i zgłosić toβmpsol0. Jednak szef pyta, jak to się różni? Możesz powiedzieć Bobowi: „Cóż, wygląda na to, że istnieje ujemna liniowa zależność między mpg a wt . Można również podsumować, że dla każdej zwiększonej jednostki w wt występuje spadek 5,3445 w mpg

W ten sposób można było stwierdzić, że wyniki były istotne statystycznie, i przekazać znaczenie w praktyce.

Mam nadzieję, że było to przydatne w odpowiedzi na twoje pytanie.


Jon, dzięki, jest DUŻO szarych obszarów, o których miałem nadzieję usłyszeć więcej, ale nie zrobiłem tego. W wielu sytuacjach rozmiary efektów i wartości p nie są zgodne. Wiele zaufania wpływa na rozmiary w takich sytuacjach, które chciałem wiedzieć, dlaczego. Miałem nadzieję usłyszeć więcej o symulacjach, które mogą pokazać ważne punkty. Jeśli chodzi o poruszoną przez ciebie kwestię, tj. Rozmiar efektu może być niewielki, ale nie dokładnie zerowy; metody testowania równoważności istnieją od kilku lat. Jeszcze bardziej podoba mi się test równoważności Bayesa. W każdym razie prawdopodobnie nie zadałem wystarczająco jasno mojego pytania. - Dzięki
rnorouzian,

BTW, kolega skomentował, że kod R Darena jest nieprawidłowy, wydaje się, że ma rację. Nie położył var.equal = TRUE.
rnorouzian,

* W wielu sytuacjach rozmiary efektów i wartości p nie są zgodne. * - czy możesz podać więcej informacji na ten temat? Przykład? Jeśli chodzi o poruszoną przez ciebie kwestię, to znaczy, że wielkość efektu może być niewielka, ale nie dokładnie zero - ta sytuacja może skutkować dużym rozmiarem próbki. Zatem jeśli wielkość efektu jest prawie zerowa, to zmienna będąca przedmiotem zainteresowania może nie wpływać znacząco na wynik lub związek może być niepoprawnie określony (np. Liniowy vs nieliniowy).
Jon

Po prostu spróbuj tego narzędzia . Zobacz także ten dokument . Wygląda na to, że będę musiał później zadać inne pytanie, używając kodu dla zachowania przejrzystości. -- Dziękuję Ci.
rnorouzian,

@ rnorouzian, dobra, uruchomiłem twój kod. O co ci chodzi?
Jon

4

Użyteczność wielkości efektu w stosunku do wartości p (jak również innych wskaźników wnioskowania statystycznego) jest rutynowo dyskutowana w mojej dziedzinie - psychologii - a debata jest obecnie „gorętsza” niż normalna z powodów, które są istotne dla twojego pytania. I chociaż jestem pewien, że psychologia niekoniecznie jest najbardziej wyrafinowaną statystycznie dziedziną naukową, łatwo omawiała, badała - a czasem wykazywała - ograniczenia różnych podejść do wnioskowania statystycznego, a przynajmniej tego, w jaki sposób są one ograniczone przez ludzi. Odpowiedzi już opublikowane zawierają dobre spostrzeżenia, ale w przypadku zainteresowania bardziej obszerną listą (i referencjami) powodów za i przeciw każdej z nich, patrz poniżej.

Dlaczego wartości p są niepożądane?

  • Jak zauważa Darren James (i jego symulacja), wartości p zależą w dużej mierze od liczby twoich obserwacji (patrz Kirk, 2003)
  • Jak zauważa Jon, wartości p reprezentują warunkowe prawdopodobieństwo zaobserwowania danych jako ekstremalne lub bardziej ekstremalne, biorąc pod uwagę, że hipoteza zerowa jest prawdziwa. Ponieważ większość badaczy wolałaby mieć prawdopodobieństwo hipotezy badawczej i / lub hipotezy zerowej, wartości p nie mówią o prawdopodobieństwach, które są najbardziej zainteresowani badaczy (tj. Hipotezie zerowej lub badawczej, patrz Dienes, 2008)
  • Wielu, którzy używają wartości p, nie rozumie, co mają na myśli / nie mają na myśli (Schmidt i Hunter, 1997). Odniesienie Michaela Lwa do artykułu Gelmana i Sterna (2006) dodatkowo podkreśla nieporozumienia badaczy dotyczące tego, co można (lub nie można) interpretować na podstawie wartości p. I jakpokazujerelatywnie nowa historia na FiveThirtyEight , nadal tak jest.
  • Wartości p nie są świetne w przewidywaniu kolejnych wartości p (Cumming, 2008)
  • Wartości p są często źle zgłaszane (częściej zwiększają znaczenie), a błędne zgłaszanie wiąże się z niechęcią do udostępniania danych (Bakker i Wicherts, 2011; Nuijten i in., 2016; Wicherts i in., 2011)
  • Wartości p mogą być (i historycznie były) aktywnie zniekształcane poprzez elastyczność analityczną, a zatem są niewiarygodne (John i in., 2012; Simmons i in., 2011)
  • Wartości p są nieproporcjonalnie istotne, ponieważ wydaje się, że systemy akademickie nagradzają naukowców za istotność statystyczną nad dokładnością naukową (Fanelli, 2010; Nosek i in., 2012; Rosenthal, 1979)

Dlaczego pożądane są rozmiary efektów?

Zauważ, że interpretuję twoje pytanie jako odnoszące się konkretnie do znormalizowanych rozmiarów efektów, ponieważ, jak mówisz, pozwalają badaczom przekształcić swoje odkrycia w „WSPÓLNY wskaźnik”.

  • Jak wskazują Jon i Darren James, rozmiary efektów wskazują na wielkość efektu, niezależnie od liczby obserwacji (American Psychological Association 2010; Cumming, 2014), w przeciwieństwie do podejmowania dychotomicznych decyzji, czy efekt występuje, czy nie.
  • Wielkości efektów są cenne, ponieważ umożliwiają metaanalizę, a metaanaliza napędza kumulatywną wiedzę (Borenstein i in., 2009; Chan i Arvey, 2012)
  • Wielkości efektów pomagają w planowaniu wielkości próby poprzez analizę a priori mocy , a zatem efektywną alokację zasobów w badaniach (Cohen, 1992)

Dlaczego wartości p są pożądane?

Chociaż rzadziej są one popierane, wartości p mają wiele zalet. Niektóre są dobrze znane i od dawna, podczas gdy inne są stosunkowo nowe.

  • Wartości p zapewniają wygodny i znany wskaźnik siły dowodów w stosunku do hipotezy zerowej modelu statystycznego.

  • Prawidłowo obliczone wartości p zapewniają podejmowanie dychotomicznych decyzji (które czasem są konieczne), a wartości p pomagają utrzymać długoterminowo fałszywie dodatnie poziomy błędów na akceptowalnym poziomie (Dienes, 2008; Sakaluk, 2016) [It nie jest całkowicie słuszne stwierdzenie, że wartości P są wymagane do decyzji dychotomicznych. Są one rzeczywiście szeroko stosowane w ten sposób, ale Neyman i Pearson wykorzystali w tym celu „krytyczne regiony” w przestrzeni statystyki testów. Zobacz to pytanie i jego odpowiedzi]

  • Wartości p można wykorzystać w celu ułatwienia ciągłego planowania wielkości próby (nie tylko jednorazowej analizy mocy) (Lakens, 2014)
  • Wartości p można zastosować w celu ułatwienia metaanalizy i oceny wartości dowodowej (Simonsohn i in., 2014a; Simonsohn i in., 2014b). Zobacz ten post na blogu, aby uzyskać dostępną dyskusję na temat tego, w jaki sposób można rozkładać wartości p w ten sposób, a także ten post CV na powiązaną dyskusję.
  • Wartości p można zastosować w celu analizy sądowej w celu ustalenia, czy mogły zostać zastosowane wątpliwe praktyki badawcze i jak powtarzalne wyniki (Schimmack, 2014; patrz także aplikacja Schönbrodta, 2015)

Dlaczego rozmiary efektów są niepożądane (lub przereklamowane)?

Być może najbardziej anty-intuicyjna pozycja dla wielu; dlaczego zgłaszanie znormalizowanych rozmiarów efektów byłoby niepożądane, a przynajmniej przereklamowane?

  • W niektórych przypadkach znormalizowane rozmiary efektów to nie wszystko, na co są spreparowane (np. Grenlandia, Schlesselman i Criqui, 1986). W szczególności Baguely (2009) ma ładny opis niektórych powodów, dla których surowe / niestandardowe rozmiary efektów mogą być bardziej pożądane.
  • Pomimo ich przydatności do analizy mocy a priori, wielkości efektów nie są w rzeczywistości stosowane niezawodnie w celu ułatwienia skutecznego planowania wielkości próby (Maxwell, 2004)
  • Nawet gdy wielkości efektów są wykorzystywane w planowaniu wielkości próby, ponieważ są one zawyżone poprzez uprzedzenie publikacji (Rosenthal, 1979), opublikowane rozmiary efektów są wątpliwe w użytecznym dla niezawodnego planowania wielkości próby (Simonsohn, 2013)
  • Szacunki wielkości efektu mogą być - i były - systematycznie błędnie obliczane w oprogramowaniu statystycznym (Levine i Hullet, 2002)
  • Wielkości efektów są błędnie wyodrębniane (i prawdopodobnie źle zgłaszane), co podważa wiarygodność metaanaliz (Gøtzsche i in., 2007)
  • Wreszcie, korekta błędów stronniczości pod względem wielkości efektu pozostaje nieskuteczna (patrz Carter i in., 2017), co, jeśli uważasz, że stronniczość publikacji istnieje, sprawia, że ​​metaanaliza jest mniej skuteczna.

streszczenie

Podobnie jak w przypadku stwierdzenia Michaela Lwa, wartości p i wielkości efektów to tylko dwa dowody statystyczne; są też inne warte rozważenia. Ale podobnie jak wartości p i wielkości efektów, inne mierniki wartości dowodowej mają wspólne i unikalne problemy. Naukowcy często źle stosują i interpretują przedziały ufności (np. Hoekstra i in., 2014; Morey i in., 2016), na przykład, a wyniki analiz bayesowskich mogą być zniekształcone przez badaczy, podobnie jak przy użyciu wartości p (np. Simonsohn , 2014).

Wszystkie metryki dowodów wygrały i wszystkie muszą mieć nagrody.

Bibliografia

Amerykańskie Stowarzyszenie Psychologiczne. (2010). Podręcznik publikacji Amerykańskiego Towarzystwa Psychologicznego (wydanie 6). Waszyngton, DC: American Psychological Association.

Baguley, T. (2009). Standardowy lub prosty rozmiar efektu: co należy zgłosić ?. British Journal of Psychology, 100 (3), 603–617.

Bakker, M., & Wicherts, JM (2011). (Błędne) raportowanie wyników statystycznych w czasopismach psychologicznych. Metody badań behawioralnych, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J., i Rothstein, HR (2009). Wprowadzenie do metaanalizy. West Sussex, Wielka Brytania: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM, i Hilgard, J. (2017, 12 sierpnia). Korekta z powodu uprzedzeń w psychologii: Porównanie metod metaanalitycznych. Źródło: osf.io/preprints/psyarxiv/9h3nu

Chan, ME i Arvey, RD (2012). Metaanaliza i rozwój wiedzy. Perspectives on Psychological Science, 7 (1), 79-92.

Cohen, J. (1992). Podkład energetyczny. Biuletyn psychologiczny, 112 (1), 155-159. 

Cumming, G. (2008). Replikacje i przedziały p: wartości p przewidują przyszłość tylko niejasno, ale przedziały ufności są znacznie lepsze. Perspektywy psychologii, 3, 286–300.

Dienes, D. (2008). Zrozumienie psychologii jako nauki: wprowadzenie do wnioskowania naukowego i statystycznego. Nowy Jork, Nowy Jork: Palgrave MacMillan.

Fanelli, D. (2010). „Pozytywne” wyniki zwiększają hierarchię nauk. PloS One, 5 (4), e10068.

Gelman, A., i Stern, H. (2006). Różnica między „znaczącym” a „nieistotnym” nie jest statystycznie istotna. The American Statistician, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K., i Tendal, B. (2007). Błędy ekstrakcji danych w metaanalizach wykorzystujących znormalizowane średnie różnice. JAMA, 298 (4), 430–437.

Greenland, S., Schlesselman, JJ, i Criqui, MH (1986). Błędem stosowania znormalizowanych współczynników regresji i korelacji jako miar efektu. American Journal of Epidemiology, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN i Wagenmakers, EJ (2014). Silna błędna interpretacja przedziałów ufności. Biuletyn psychonomiczny i przegląd, 21 (5), 1157-1164.

John, LK, Loewenstein, G., i Prelec, D. (2012). Mierzenie rozpowszechnienia wątpliwych praktyk badawczych z zachętami do mówienia prawdy. PsychologicalSscience, 23 (5), 524-532.

Kirk, RE (2003). Znaczenie wielkości efektu. W SF Davis (red.), Podręcznik metod badawczych w psychologii eksperymentalnej (s. 83–105). Malden, MA: Blackwell.

Lakens, D. (2014). Wydajne wykonywanie badań o dużej mocy z analizami sekwencyjnymi. European Journal of Social Psychology, 44 (7), 701–710.

Levine, TR i Hullett, CR (2002). Eta do kwadratu, częściowe do kwadratu eta i błędne zgłaszanie wielkości efektu w badaniach komunikacji. Human Communication Research, 28 (4), 612-625.

Maxwell, SE (2004). Trwałość słabych badań w badaniach psychologicznych: przyczyny, konsekwencje i środki zaradcze. Metody psychologiczne, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, i Wagenmakers, EJ (2016). Błąd polegający na zaufaniu do przedziałów ufności. Biuletyn i przegląd psychonomiczny, 23 (1), 103-123.

Nosek, BA, Spies, JR i Motyl, M. (2012). Utopia naukowa: II. Restrukturyzacja zachęt i praktyk w celu promowania prawdy ponad publikowalność. Perspectives on Psychological Science, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & Wicherts, JM (2016). Częstość występowania statystycznych błędów sprawozdawczych w psychologii (1985–2013). Metody badań behawioralnych, 48 (4), 1205-1226.

Rosenthal, R. (1979). Problem z szufladą plików i tolerancja dla pustych wyników. Biuletyn psychologiczny, 86 (3), 638-641.

Sakaluk, JK (2016). Odkrywanie drobnych, potwierdzanie dużych: Alternatywny system dla nowych statystyk służący rozwojowi skumulowanych i powtarzalnych badań psychologicznych. Journal of Experimental Social Psychology, 66, 47-54.

Schimmack, U. (2014). Kwantyfikacja rzetelności badań statystycznych: wskaźnik powtarzalności. Źródło: http://www.r-index.org 

Schmidt, Floryda i Hunter, JE (1997). Osiem powszechnych, ale fałszywych zastrzeżeń do przerwania testowania istotności w analizie danych badawczych. W LL Harlow, SA Mulaik i JH Steiger (Red.), Co jeśli nie byłoby testów istotności? (str. 37–64). Mahwah, NJ: Erlbaum.

Schönbrodt, FD (2015). p-Checker: Analizator p-wartości jeden dla wszystkich. Źródło: http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Fałszywie pozytywna psychologia: Nieujawniona elastyczność w gromadzeniu i analizie danych pozwala przedstawić wszystko jako tak znaczące. Nauki psychologiczne, 22 (11), 1359-1366.

Simonsohn, U. (2013). Szaleństwo napędzania replik na podstawie obserwowanego rozmiaru efektu. Źródło: http://datacolada.org/4

Simonsohn, U. (2014). Hakowanie z tyłu. Źródło: http://datacolada.org/13 .

Simonsohn, U., Nelson, LD i Simmons, JP (2014). Krzywa P: Klucz do szuflady na pliki. Journal of Experimental Psychology: General, 143 (2), 534-547.

Simonsohn, U., Nelson, LD i Simmons, JP (2014). Krzywa P i wielkość efektu: Korekta odchylenia publikacji przy użyciu tylko istotnych wyników. Perspectives on Psychological Science, 9 (6), 666-681.

Wicherts, JM, Bakker, M., i Molenaar, D. (2011). Chęć dzielenia się danymi badawczymi jest związana z siłą dowodów i jakością raportowania wyników statystycznych. PloS One, 6 (11), E26828.


2
Bardzo fajny zbiór pomysłów i referencji. Powinno to być pomocne dla tych, którzy chcą kopać nieco dalej, ale zauważ, że wiele punktów ma odpowiednie pytania i odpowiedzi na tej stronie. Pomogłyby również linki do nich.
Michael Lew,

@MichaelLew Thanks. Zobaczę o dodawaniu linków, kiedy będę miał czas później - zajęło mi to większą część popołudnia, aby przygotować tę odpowiedź i zebrać referencje. Jeśli chodzi o twoją edycję, myślę, że twój punkt widzenia jest dobrze przemyślany, ale może raczej dodatkiem, a nie poprawką? Powiedziałem, że wartości p zapewniają a sposobów podejmowania decyzji dychotomiczne (nie, że są one „niezbędne” lub jedynym sposobem robić to). Zgadzam się, że regiony krytyczne dla NP są innym sposobem, ale odpowiedziałem na PO w kontekście tego, co dają wartości p w porównaniu ze znormalizowanymi wielkościami efektów.
jsakaluk,

1
jsakaluk, tak, widzę, że spędziłbyś dużo czasu na odpowiedzi i jest to bardzo przydatne i warte twojego wysiłku. Zredagowałem ten artykuł na temat zalet wartości P, ponieważ napisałeś „Gdy są używane poprawnie”, można je rozdzielić na części, podczas gdy w rzeczywistości takie użycie ignoruje wiele informacji zakodowanych w wartości P, a zatem jest prawdopodobnie (i moim zdaniem) nieprawidłowe użycie. Nie chciałem obalić twojego zamiaru, dlatego zmieniłem „używane” na „wyliczone”.
Michael Lew,

3

Z perspektywy epidemiologa, dlaczego wolę rozmiary efektów od wartości p (chociaż, jak zauważyli niektórzy ludzie, jest to coś w rodzaju fałszywej dychotomii):

  1. Wielkość efektu mówi mi, czego naprawdę chcę, wartość p mówi mi tylko, czy można ją odróżnić od wartości null. Ryzyko względne 1.0001, 1.5, 5 i 50 może wiązać się z tą samą wartością p powiązaną z nimi, ale oznacza bardzo różne rzeczy pod względem tego, co moglibyśmy zrobić na poziomie populacji.
  2. Oparcie się na wartości p wzmacnia pogląd, że testowanie hipotez opartych na istotności jest ostatecznym dowodem. Rozważ następujące dwa stwierdzenia: „Lekarze uśmiechający się do pacjentów nie byli istotnie powiązani z niekorzystnym skutkiem podczas pobytu w szpitalu”. vs. „Pacjenci, u których uśmiechał się lekarz, byli o 50% mniej narażeni na negatywne skutki (p = 0,086)”. Czy nadal, biorąc pod uwagę fakt, że nie wiąże się to z żadnymi kosztami, możesz rozważyć zasugerowanie lekarzom uśmiechu do swoich pacjentów?
  3. Pracuję z wieloma stochastycznymi modelami symulacyjnymi, w których wielkość próbki jest funkcją mocy obliczeniowej i cierpliwości, a wartości p są w zasadzie bez znaczenia. Udało mi się uzyskać p <0,05 wyników dla rzeczy, które absolutnie nie mają znaczenia klinicznego ani zdrowia publicznego.
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.