Czy analiza mocy a priori jest zasadniczo bezużyteczna?

W zeszłym tygodniu uczestniczyłem w spotkaniu Towarzystwa Osobowości i Psychologii Społecznej, gdzie widziałem przemówienie Uri Simonsohna z założeniem, że zastosowanie analizy mocy a priori w celu ustalenia wielkości próby było zasadniczo bezużyteczne, ponieważ jej wyniki są tak wrażliwe na założenia.

Oczywiście, twierdzenie to jest sprzeczne z tym, czego nauczono mnie w mojej klasie metod, oraz z zaleceniami wielu wybitnych metodologów (zwłaszcza Cohena, 1992 ), więc Uri przedstawił pewne dowody na jego twierdzenie. Próbowałem odtworzyć niektóre z tych dowodów poniżej.

Dla uproszczenia wyobraźmy sobie sytuację, w której masz dwie grupy obserwacji i zgadnij, że wielkość efektu (mierzona znormalizowaną średnią różnicą) wynosi . Standardowe obliczenia mocy (wykonane przy użyciu poniższego pakietu) wskażą, że będziesz potrzebować obserwacji, aby uzyskać 80% mocy przy tym projekcie. $.5$ Rpwr $128$

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Zwykle jednak nasze domysły na temat przewidywanego rozmiaru efektu są (przynajmniej w naukach społecznych, które są moim kierunkiem studiów) tylko bardzo szorstkie domysły. Co się wtedy stanie, jeśli nasze przypuszczenie co do wielkości efektu będzie trochę niepotrzebne? Szybkie obliczenie mocy mówi, że jeśli wielkość efektu wynosi zamiast , potrzebujesz obserwacji - razy więcej niż potrzebujesz, aby uzyskać odpowiednią moc dla efektu o wielkości . Podobnie, jeśli wielkość efektu wynosi , potrzebujesz tylko obserwacji, 70% tego, czego potrzebujesz, aby mieć wystarczającą moc, aby wykryć wielkość efektu $.4$ $.5$ $200$ $1.56$ $.5$ $.6$ $90$ $.50$ . W praktyce zakres szacowanych obserwacji jest dość duży - od do . $90$ $200$

Jedną z odpowiedzi na ten problem jest to, że zamiast odgadnąć, jaki może być rozmiar efektu, zbieracie dowody na temat wielkości efektu, albo w oparciu o literaturę z przeszłości, albo poprzez testy pilotażowe. Oczywiście, jeśli przeprowadzasz testy pilotażowe, chciałbyś, aby Twój test pilotażowy był wystarczająco mały, abyś po prostu nie przeprowadzał wersji badania tylko w celu ustalenia wielkości próby potrzebnej do uruchomienia badania (tzn. chcesz, aby wielkość próby zastosowanej w teście pilotażowym była mniejsza niż wielkość próby w badaniu).

Uri Simonsohn argumentował, że testowanie pilotażowe w celu określenia wielkości efektu zastosowanego w analizie mocy jest bezużyteczne. Rozważ następującą symulację, w której się uruchomiłem R. Ta symulacja zakłada, że wielkość efektu populacji wynosi . Następnie przeprowadza „testów pilotażowych” o rozmiarze 40 i zestawia zalecane z każdego z 10000 testów pilotażowych. $.5$ $1000$ $N$

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Poniżej znajduje się wykres gęstości oparty na tej symulacji. Pominąłem z testów pilotażowych, które zalecały szereg obserwacji powyżej aby obraz był bardziej zrozumiały. Nawet skupiając się na mniej ekstremalnych wyników symulacji, tam jest ogromna zmienność w zalecane przez badań pilotażowych. $204$ $500$ $Ns$ $1000$

wprowadź opis zdjęcia tutaj

Oczywiście jestem pewien, że wrażliwość na problem z założeniami pogarsza się, gdy projekt staje się bardziej skomplikowany. Na przykład w projekcie wymagającym specyfikacji struktury efektów losowych charakter struktury efektów losowych będzie miał dramatyczne implikacje dla mocy projektu.

Co więc wszyscy myślicie o tym argumencie? Czy analiza mocy a priori jest zasadniczo bezużyteczna? Jeśli tak, to w jaki sposób badacze powinni zaplanować wielkość swoich badań?

— Patrick S. Forscher
źródło

To brzmi jak potępienie bezmyślnej analizy mocy, a nie samej analizy mocy. Większe pytanie dotyczy tego, czy jest to atak na słomianego mężczyznę, czy też jest wielu ludzi, którzy przeprowadzają swoje analizy mocy (lub jakiekolwiek inne analizy) bez względu na ich wrażliwość na założenia. Jeśli to drugie jest prawdą, dobrze jest je oświecić, ale mam nadzieję, że nie zniechęcają się tak bardzo, że rezygnują z wszelkich starań, aby zaplanować swoje eksperymenty!

— whuber

Przypomina mi sporo statystyk.stackexchange.com/q/2492/32036 , i to nie tylko ze względu na podobieństwo składniowe w sformułowaniu pytania tytułowego. Pojawia się pytanie, jak rozumieć założenia. Zasadniczym punktem w obu tych zagadnieniach jest zrozumienie wrażliwości tych analiz na stronniczość, a nie dokonywanie obszernych ocen „wszystko albo nic”, że ich założenia są (a) absolutnie kluczowe lub (b) całkowicie nieistotne. Jest to klucz do ogólnego wnioskowania przydatnego i nieszkodliwego. Obawiam się, że to nie słomiany człowiek; ludzie zbyt często myślą w absolutach, kiedy nie wiedzą, nie potrafią o to dbać.

— Nick Stauner

Nie chciałem dodawać tego do pytania, ponieważ interesowały mnie rekomendacje, które przedstawili inni, ale zalecenie Uri Simonsohna pod koniec rozmowy polegało na wzmocnieniu twojego badania do wykrycia najmniejszego efektu, na którym ci zależy.

— Patrick S. Forscher

@ PatrickS.Forscher: Po tym wszystkim, co zostało powiedziane i zrobione, wierzy on w analizę a priori mocy. Uważa tylko, że wielkość efektu należy wybrać mądrze: nie zgadnij, co to może być, ale raczej minimalną wartość, na której ci zależy. Brzmi prawie jak podręcznikowy opis analizy mocy: upewnienie się, że masz wystarczającą ilość danych, aby to, co uważasz za praktycznie istotną różnicę, pojawi się jako statystycznie istotna różnica.

— Wayne

Sposób, w jaki Uri sformułował tę mowę, wydaje mi się, że uważa, że analiza a priori władzy jest bezużyteczna, jak zwykle ma to miejsce w naukach społecznych, ale być może nie tak, jak uczy się jej gdzie indziej. Rzeczywiście, nauczono mnie, aby opierać moją analizę mocy na rozsądnych przypuszczeniach dotyczących wielkości efektu, którego szukam, a nie na tym, na czym zależy mi w praktyce.

— Patrick S. Forscher

Podstawowa kwestia tutaj jest prawdziwa i dość dobrze znana w statystyce. Jednak jego interpretacja / twierdzenie jest ekstremalne. Jest kilka kwestii do omówienia:

$N$ $\sqrt N$ $N$ $50\%$ $80\%$ $d$ $d$ $d = .5$ $N = 128$ $\approx 7.9\%$ $\approx 5.5\%$ $.1$ $\approx 16.9\%$ $.1$ $\approx 12.6\%$

wprowadź opis zdjęcia tutaj

$d$

$80\%$

Po drugie, w odniesieniu do szerszego twierdzenia, że analizy mocy (a priori lub w inny sposób) opierają się na założeniach, nie jest jasne, co sądzić o tym argumencie. Oczywiście, że tak. Podobnie jak wszystko inne. Nie uruchamianie analizy mocy, ale po prostu zebranie pewnej ilości danych na podstawie liczby, którą wybrałeś z kapelusza, a następnie przeanalizowanie danych, nie poprawi sytuacji. Co więcej, Twoje analizy będą nadal opierać się na założeniach, tak jak zawsze wszystkie analizy (mocy lub w inny sposób). Jeśli zamiast tego zdecydujesz, że będziesz nadal gromadzić dane i ponownie je analizować, aż uzyskasz zdjęcie, które ci się podoba lub się nim znudzisz, będzie to znacznie mniej ważne (i nadal będzie pociągać za sobą założenia, które mogą być niewidoczne dla mówcy, ale które jednak istnieją). Mówiąc prościej,nie ma mowy o tym, że przyjmowane są założenia w badaniach i analizie danych .

Możesz znaleźć następujące zasoby zainteresowań:

Kraemer, HC, Mintz, J., Noda, A., Tinklenberg, J., i Yesavage, JA (2006). Uwaga dotycząca wykorzystania badań pilotażowych do prowadzenia obliczeń mocy dla propozycji badań , Archives of General Psychiatry, 63 , 5, s. 484–489.
Uebersax, JA (2007). Bayesowska bezwarunkowa analiza mocy. http://www.john-uebersax.com/stat/bpower.htm

— gung - Przywróć Monikę
źródło

Myślę, że argument Uri Simonsohna nie był taki, że założenia same w sobie są złe, ale ogólnie rzecz biorąc analizy mocy są tak wrażliwe na założenia, że czynią je bezużytecznymi przy planowaniu wielkości próby. Twoje punkty są jednak doskonałe, podobnie jak referencje, które podałeś (+1).

— Patrick S. Forscher

Twoje zmiany nadal poprawiają tę i tak doskonałą odpowiedź. :)

— Patrick S. Forscher

Zgadzam się, że to świetna odpowiedź i chciałem poinformować Ciebie (i innych), że zacytowałem Cię w ostatnim poście na blogu, który napisałem na ten temat: jakewestfall.org/blog/index.php/2015/06/ 16 /…

— Jake Westfall

@JakeWestfall, nice post! Z drugiej strony, kiedy studiujesz pliki cookie, czy robisz to przede wszystkim poprzez ich spożywanie? Czy potrzebujesz konsultanta statystycznego przy którymkolwiek z tych projektów?

— Gung - Przywróć Monikę