Czy dwumianowy wyświetlacz wielkości efektu (BESD) wprowadza w błąd reprezentację wielkości efektu?

10

Trudno mi zaakceptować, że Donald Rubin kiedykolwiek wymyśli prawdziwą cytrynę techniki. Ale takie jest moje postrzeganie BESD [ 1 , 2 , 3 ].

Oryginalny artykuł Rosenthala i Rubina (1982) twierdził, że warto wykazać „jak przekształcić dowolną korelację momentu produktu w taki wyświetlacz [2x2], niezależnie od tego, czy oryginalne dane są ciągłe czy kategoryczne”.

Poniższa tabela pochodzi z pkt. 451 drugiego linku powyżej:

wprowadź opis zdjęcia tutaj

Ta technika wydaje się zawyżać wielkość niemal każdego rozmiaru efektu. Tutaj z oryginalnych danych = .01, ale kiedy „przetłumaczone” na stole 2x2 awaryjnych, zdaje się, że w obliczu znacznie silniejszy efekt. Nie przeczę, że kiedy dane są przekształcane w format kategoryczny w ten sposób, rzeczywiście = .1, ale czuję, że coś zostało bardzo zniekształcone w tłumaczeniu. $R^2$ $\phi$

Czy brakuje mi czegoś naprawdę cennego? Mam również wrażenie, że w ciągu ostatnich 10 lat społeczność statystyczna zasadniczo odrzuciła to jako uzasadnioną metodę - czy się mylę?

Równanie do obliczenia, odpowiednio, eksperymentalnego ( ) i kontrolnego ( ) wskaźnika powodzenia ( ), jest po prostu: $E$ $C$ $sr$

$E_{sr} = .50 + r/2$

i

$C_{sr} = .50 - r/2$

Odniesienie:

Rosenthal, R., i Rubin, DB (1982). Prosty wyświetlacz ogólnego przeznaczenia wielkości efektu eksperymentalnego. Journal of Educational Psychology, 74 , 166–169.

interpretation effect-size

— rolando2
źródło

1

r

$r$

Twoje dobre pomysły były jedyną odpowiedzią lub odpowiedzią, jaką widziałem.

— rolando2

2

Nie przeczytałem tego, ale wydaje się to bardzo istotne: Hsu, LM (2004). Wahania różnic wskaźnika powodzenia pokazane na ekranach wielkości efektu dwumianowego. Metody psychologiczne, 9 (2), 183–197. Niektóre krytyki zostały również omówione w: Randolph, JJ i Edmondson, RS (2005). Wykorzystanie dwumianowego wyświetlacza wielkości efektu (BESD) do przedstawienia wielkości rozmiarów efektu odbiorcom oceniającym. Ocena praktyczna, badania i ocena, 10 (14).

— Wolfgang,

4

Mogę wykazać, że jest tendencyjny (myślę), ale nie potrafię wyjaśnić, dlaczego. Mam nadzieję, że ktoś zobaczy moją odpowiedź i pomoże jej wyjaśnić więcej.

Podobnie jak w wielu metaanalizach i zamieszczonym obrazie, wiele osób interpretuje BESD jako: Jeśli miałbyś medianę podzielić obie zmienne, dokładnie umieściłbyś ludzi w „właściwych” komórkach tabeli awaryjności 2 x 2 o danym czas.

$.50 + r/2 = .70$ $r$

$r$

$r = .38$ $.50 + r/2$

Następnie wziąłem średnią i standardowe odchylenie każdego z tych wektorów o długości 10.000. Kod:

library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
  samp <- pop[sample(1:1000000, 100),]
  besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
  samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
  samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
  actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)

Na podstawie BESD otrzymujemy tę tabelę, gdzie v1i v2odnoszą się do zmiennych loworaz highodnoszą się odpowiednio do poniżej i powyżej mediany:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 69     | 31      |
+---------+--------+---------+
| v1 high | 31     | 69      |
+---------+--------+---------+

Na podstawie faktycznego podziału mediany na surowych danych otrzymujemy następującą tabelę:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 62     | 38      |
+---------+--------+---------+
| v1 high | 38     | 62      |
+---------+--------+---------+

Podczas gdy ktoś mógłby argumentować, używając BESD, że istnieje „38 punktów procentowych różnicy w kontroli i eksperymentach”, rzeczywisty podział mediany ma tę liczbę na 24.

Nie jestem pewien, dlaczego tak się dzieje, lub jeśli zależy to od wielkości próbki i korelacji (można łatwo wykonać więcej symulacji, aby się dowiedzieć), myślę, że to pokazuje, że jest to stronnicze. Bardzo bym chciał, gdyby ktoś mógł wprowadzić matematyczne, a nie obliczeniowe, wyjaśnienie.

— Mark White
źródło

2

Intuicja Marka White'a jest nieprawidłowa. BESD tak naprawdę nie modeluje podziału mediany. Podział mediany jest związany z rzeczywistą utratą informacji statystycznych - systematycznie łagodzi relacje (patrz http://psycnet.apa.org/record/1990-24322-001), dlatego wartości podziału mediany wykazują mniejszą dokładność niż BESD. BESD wykazuje dokładność klasyfikacji, tak jakby zmienne były naprawdę dychotomiczne, a nie sztucznie dychotomiczne poprzez podział mediany. Aby to zobaczyć, oblicz korelację danych mediany podziału. Zobaczysz, że jest on mniejszy niż korelacja dla oryginalnych zmiennych. Gdyby zmienne były pierwotnie binarne, obie metody byłyby zgodne. Ze swej natury BESD wyświetla zmienne tak, jakby były naprawdę binarne. Gdy jest stosowany do zmiennych ciągłych, musi to koniecznie stanowić abstrakcję - nie ma tak naprawdę grup „sukcesu” i „niepowodzenia” lub „leczenia” i „kontroli”,

BESD nie jest stronniczy. Dokładnie odzwierciedla wpływ konkretnego traktowania na dokładność klasyfikacji, jeśli pracujemy z dwiema zmiennymi binarnymi. Jest to przydatny sposób prezentacji potencjalnej wartości praktycznej środka lub leczenia, i tak, pokazuje, że nawet efekty o małej wariancji uwzględniane w statystykach mogą mieć istotne znaczenie. BESD jest szeroko stosowany w stosowanej praktyce psychologicznej i organizacyjnej i zdecydowanie zgadza się z innymi praktycznymi wskaźnikami wielkości efektu (np. Że odgórne wybranie grupy za pomocą miary z korelacją ważności r = 0,25 doprowadzi do 0,25 Wzrost SD w wynikach wśród wybranej grupy w porównaniu z grupą niewybraną).

Rozbieżność uwzględniana w statystykach konsekwentnie prowadzi do nieporozumień i nie docenia wielkości relacji zmiennych, ponieważ operacja kwadratu jest nieliniowa. Wielu stosowanych metodologów (np. Https://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 ) zdecydowanie odradza ich stosowanie na korzyść ich pierwiastków kwadratowych (które dokładniej oddają rozmiar efekty).

— Brenton Wiernik
źródło

1

Aby uzyskać szczegółową odpowiedź, analizę, kiedy robi to różnicę i lepsze rozwiązanie, zobacz Dokładna metoda obliczania bezwzględnej zmiany procentowej w dychotomicznym wyniku od wielkości efektu metaanalitycznego: Poprawa szacunków wpływu i kosztów, TR Miller, J Derzon, D Hendrie, Value in Health, 14: 1, 144-151, 2011. Oto streszczenie odpowiedzi w streszczeniu tego artykułu. CELE: Metaanalizy zwykle obliczają wielkość efektu leczenia (d Cohena), który łatwo przekształca się w inną powszechną miarę, dwumianowy wyświetlacz wielkości efektu (BESD). BESD jest współczynnikiem korelacji i reprezentuje procentową różnicę wyniku wynikającą z interwencji. Zarówno d, jak i BESD są w dowolnych jednostkach; żadne nie mierzy bezwzględnej zmiany wynikającej z interwencji. Metoda zastosowana do oszacowania zmiany bezwzględnej w stosunku do BESD zakłada zarówno podział wyniku 50-50, jak i zrównoważony projekt. W związku z tym niedokładne założenia stanowią podstawę większości metaanalitycznych oszacowań korzyści wynikających z interwencji (i jej opłacalności). W tym artykule opracowano dokładną formułę bez tych założeń. METODY: Formuła została opracowana algebraicznie z 1) wzoru na współczynnik korelacji reprezentowany jako tabela awaryjności 2 na 2 zbudowana ze względnej wielkości grup leczonych i kontrolnych oraz odsetka osób, u których stan byłby nieobecny, oraz 2) wzór współczynnika korelacji BESD pokazujący zmianę prawdopodobieństwa powodzenia leczenia. WYNIKI: Symulacja pokazuje, że BESD przybliża jedynie zmniejszenie wyniku, jaki interwencja mogłaby osiągnąć, gdy problem wystąpi w 35% -65% przypadków. W przypadku mniej powszechnych wyników BESD znacznie przecenia wpływ interwencji. Nawet gdy BESD dokładnie oszacuje prawdopodobną procentową zmianę wyniku, przedstawia mylący obraz odsetka przypadków, które osiągną pozytywny wynik.

— Ted Miller
źródło

Pełny tekst znajduje się na stronie sciencedirect.com/science/article/pii/S1098301510000148 . Dzięki @Ted Miller

— rolando2