Jak wyświetlać słupki błędów dla eksperymentów krzyżowych (sparowanych)

19

Poniższy scenariusz stał się najczęściej zadawanym pytaniem w trio badacza (I), recenzenta / redaktora (R, niezwiązanego z CRAN) i mnie (M) jako twórcy fabuły. Możemy założyć, że (R) jest typowym recenzentem medycznym dużego bossa, który wie tylko, że każda fabuła musi mieć pasek błędu, w przeciwnym razie jest to błąd. Gdy zaangażowany jest recenzent statystyczny, problemy są znacznie mniej krytyczne.

Scenariusz

W typowym farmakologicznym badaniu krzyżowym dwa leki A i B są testowane pod kątem ich wpływu na poziom glukozy. Każdy pacjent jest badany dwukrotnie w losowej kolejności i przy założeniu braku przeniesienia. Pierwszorzędowym punktem końcowym jest różnica między glukozą (BA) i zakładamy, że sparowany test t jest odpowiedni.

(I) chce wykresu, który pokazuje bezwzględne poziomy glukozy w obu przypadkach. Obawia się (R) chęci stosowania słupków błędów i prosi o standardowe błędy na wykresach słupkowych. Nie zaczynajmy tutaj wojny na wykresie słupkowym ._)

wykresy słupkowe i SE glukozy dla dwóch zabiegów

(I): To nie może być prawda. Słupki nakładają się, a my mamy p = 0,03? Tego nie nauczyłem się w szkole średniej.

(M): Mamy tutaj sparowany projekt. Żądane słupki błędów są całkowicie nieistotne, liczy się SE / CI sparowanych różnic, które nie są pokazane na wykresie. Gdybym miał wybór i nie było zbyt wielu danych, wolałbym następujący wykres

Połączone linie pokazują parowanie, kropki oryginalne wartości

Dodano 1: Jest to równoległy wykres współrzędnych wspomniany w kilku odpowiedziach

(M): Linie pokazują parowanie, a większość linii idzie w górę, i to jest właściwe wrażenie, ponieważ liczy się nachylenie (ok, to jest kategoryczne, ale mimo to).

(I): To zdjęcie jest mylące. Nikt tego nie rozumie i nie ma pasków błędów (R czai się).

(M): Możemy również dodać inny wykres pokazujący odpowiedni przedział ufności różnicy. Odległość od linii zerowej daje wrażenie wielkości efektu.

(I): Nikt tego nie robi

(R): I marnuje cenne drzewa

(M): (Jako dobry Niemiec): Tak, punkt na drzewach jest zajęty. Niemniej jednak używam tego (i nigdy go nie publikuję), gdy mamy wiele zabiegów i wiele kontrastów.

przedział ufności różnicy

Jakieś sugestie ? Kod R znajduje się poniżej, jeśli chcesz utworzyć fabułę.

# Graphics for Crossover experiments
library(ggplot2)
library(plyr)
theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines")))
n = 20
effect = 5 
set.seed(4711)
glu0 = rnorm(n,120,30)
glu1 = glu0 + rnorm(n,effect,7)
dt = data.frame(patient = rep(paste0("P",10:(9+n))),              
                treatment = rep(c("A","B"), each=n),glucose = c(glu0,glu1))

dt1 = ddply(dt,.(treatment), function(x){
  data.frame(glucose = mean(x$glucose), se = sqrt(var(x$glucose)/nrow(x)) )})

tt = t.test(glucose~treatment,paired=TRUE,data=dt,conf.int=TRUE)
dt2 = data.frame(diff = -tt$estimate,low=-tt$conf.int[2], up=-tt$conf.int[1])
p = paste("p =",signif(tt$p.value,2))

png(height=300,width=300)
ggplot(dt1, aes(x=treatment, y=glucose, fill=treatment))+      
  geom_bar(stat="identity")+  
  geom_errorbar(aes(ymin=glucose-se, ymax=glucose+se),size=1., width=0.3)+
  geom_text(aes(1.5,150),label=p,size=6)

ggplot(dt,aes(x=treatment,y=glucose, group=patient))+ylim(0,190)+
  geom_line()+geom_point(size=4.5)+
  geom_text(aes(1.5,60),label=p,size=6)

ggplot(dt2,aes(x="",y=diff))+
  geom_errorbar(aes(ymin=low,ymax=up),size=1.5,width=0.2)+ 
  geom_text(aes(1,-0.8),label=p,size=6)+
  ylab("95% CI of difference glucose B-A")+  ylim(-10,10)+
  theme(panel.border=element_blank(), panel.grid.major.x=element_blank(),
         panel.grid.major.y=element_line(size=1,colour="grey88"))

dev.off()

— Dieter Menne
źródło

O mój boże @ dieter-menne, świetne pytanie! Jest to zależne od rodzaju czasopisma, do którego przesyłasz artykuł. Będę trzymać się z dala od wojen grafowych, ale uwielbiam wykresy 2 i 3: tyle informacji w tak małej przestrzeni.

— doug.numbers

4

Masson and Loftus (2003) to często podane odniesienie. Pokazują przykładowe wykresy, w których przedstawiają CI różnicy na drugim panelu tego samego wykresu. Czy to sprawi, że wszyscy w cyrku będą szczęśliwi, nie wiem (choć współczuję wam!)

— Andy W

Dzięki, @AndyW, za odniesienie. Jest do rzeczy, ale ma problem: pochodzi z psychologii. Jest o wiele więcej dobrych artykułów na ten temat od psychologów, którzy mają znacznie lepsze podłoże statystyczne w porównaniu do recenzentów medycznych. Chciałbym znaleźć jakiś wysokiej jakości przewodnik po czasopismach na ten temat, to jedyny ostry miecz, z którym mogłem sobie poradzić.

— Dieter Menne

17

Masz całkowitą rację, zakładając, że słupki błędów reprezentujące błąd standardowy średniej są całkowicie nieodpowiednie dla projektów wewnątrz przedmiotu. Jednak kwestia nakładających się słupków błędów i znaczenia jest kolejnym tematem, do którego powrócę na końcu tej skomentowanej listy referencyjnej.

Istnieje bogata literatura z psychologii na temat przedziałów ufności wewnątrz badanych lub słupków błędów, które robią dokładnie to, co chcesz. Praca referencyjna jest wyraźnie:

Loftus, GR i Masson, MEJ (1994). Korzystanie z przedziałów ufności w projektach wewnątrz tematu . Biuletyn i przegląd psychonomiczny , 1 (4), 476–490. doi: 10.3758 / BF03210951

Ich problemem jest jednak to, że używają tego samego terminu błędu dla wszystkich poziomów czynnika wewnątrz podmiotu. Nie wydaje się to dużym problemem dla twojej sprawy (2 poziomy). Ale istnieją bardziej nowoczesne podejścia do rozwiązania tego problemu. W szczególności:

Franz, V., i Loftus, G. (2012). Standardowe błędy i przedziały ufności w projektach wewnątrz-przedmiotowych: Generalizowanie Loftusa i Massona (1994) i unikanie stronniczości alternatywnych kont . Biuletyn i przegląd psychonomiczny , 1–10. doi: 10.3758 / s13423-012-0230-1

Baguley, T. (2011). Obliczanie i tworzenie wykresów przedziałów ufności między badanymi dla ANOVA. Metody badań zachowania . doi: 10.3758 / s13428-011-0123-7 [ można znaleźć tutaj ]

Dalsze odniesienia można znaleźć w dwóch ostatnich artykułach (które moim zdaniem są warte przeczytania).

Jak badacze interpretują CI? Źle według następującego artykułu:

Belia, S., Fidler, F., Williams, J., i Cumming, G. (2005). Badacze źle rozumieją przedziały ufności i standardowe słupki błędów . Metody psychologiczne , 10 (4), 389–396. doi: 10.1037 / 1082-989X.10.4.389

Jak interpretować nakładające się i nienakładające się elementy CI?

Cumming, G., i Finch, S. (2005). Wnioskowanie przez oko: przedziały ufności i sposób odczytywania zdjęć danych . American Psychologist , 60 (2), 170–180. doi: 10.1037 / 0003-066X.60.2.170

Jedna ostatnia myśl (chociaż nie ma to zastosowania do twojego przypadku): Jeśli masz projekt podzielonej działki (tj. Czynniki wewnątrz i między podmiotami) w jednym wykresie, możesz całkowicie zapomnieć o słupkach błędów. Chciałbym (pokornie) polecam moją raw.means.plotfunkcję w pakiecie R plotrix.

— Henrik
źródło

2

Bardzo przydatna lista referencyjna. Cumming zebrał wiele swoich pomysłów w amazon.com/Understanding-New-Statistics-Meta-Analysis-ebook/dp/… (Cokolwiek chcesz powiedzieć o wyrażeniu „nowe statystyki”, prawdopodobnie się zgadzam.)

— Nick Cox

Zobacz także przedziały ufności Morey 2008 z danych znormalizowanych: poprawka do Cousineau (2005)

— amoeba mówi o przywróceniu Moniki

@amoeba Przywołany przeze mnie papier Baguley wykorzystuje technikę papieru Morey.

— Henrik

10

Pytanie nie wydaje się dotyczyć tak samych pasków błędów, jak najlepszych metod drukowania sparowanych danych.

Zasadniczo słupki błędów tutaj są co najwyżej sposobem na podsumowanie niepewności: nie mówią i niekoniecznie mogą wiele powiedzieć o jakiejkolwiek drobnej strukturze danych.

Równoległe wykresy współrzędnych - czasami nazywane wykresami profilowymi, terminem oznaczającym różne rzeczy w różnych polach - zostały wspomniane w pytaniu. Podstawowe wykresy rozrzutu zostały już zasugerowane przez @Ray Koopman.

$A - B$ $(A + B)/2$ $A + B$

Innym źródłem tego wykresu jest Neyman, J., Scott, EL i Shane, CD 1953. O rozkładzie przestrzennym galaktyk: model specjalny. Astrophysical Journal 117: 92–133.

W szerokim ujęciu takie fabuły przypominają ideę wykreślania resztek w porównaniu z dopasowanymi, również spopularyzowanymi przez Tukeya i jego szwagra Anscombe.

$A - B = 0$ $A = B$ $A$ $B$ są zasadniczo podobne, wykres rozproszenia wykorzystuje dużą część swojej przestrzeni do podkreślenia tego faktu, podczas gdy struktura różnic powinna być bardziej interesująca.

Zaniedbanym projektem jest wykres równoległej linii McNeila, DR 1992. Na wykresie sparowanych danych. American Statistician 46: 307–310. Jest to również omówione w dwóch odnośnikach poniżej.

Recenzje powiązane z Stata, z kilkoma referencjami, znajdują się w

2004, Umowa graficzna i spór. Stata Journal 4: 329-349.

.pdf dostępny na stronie http://www.stata-journal.com/sjpdf.html?articlenum=gr0005

Sparowane, równoległe lub profilowane wykresy dla zmian, korelacji i innych porównań. Stata Journal 9: 621-639.

.pdf dostępny na stronie http://www.stata-journal.com/sjpdf.html?articlenum=gr0041

Użytkownicy spoza Staty powinni móc pomijać i nucić drogę przez kod Stata, jednocześnie pracując nad tym, jak zaimplementować wykresy we własnym ulubionym oprogramowaniu.

$A$ $B$

— Nick Cox
źródło

4

Wypróbuj wykres punktowy poszczególnych punktów (A, B). Większość z nich powinna leżeć tylko po jednej stronie przekątnej (linia A = B). Istnieją dwa analogi słupków błędów. Konwencjonalny, równoważny CI dla średniej różnicy, byłby pasmem ufności dla średniej różnicy. Pasmo byłoby regionem między dwiema liniami, z których obie są równoległe do przekątnej. Sparowany test t byłby znaczący, gdyby tylko obie krawędzie pasma znajdowały się po tej samej stronie przekątnej.

Bardziej konserwatywny analog paska błędów byłby elipsą zaufania dla środka masy.

— Ray Koopman
źródło

1

c_{m e t h o d B}

$c_{method B}$

c_{m e t h o d A}

$c_{method A}$

Nie, kl. - :) Chemia kliniczna jest zbyt zaawansowana. Możliwe, że dodałeś jakieś odniesienie w „tam”; Nie jestem pewien, o jakim papierze mówisz.

— Dieter Menne

4

Wstępne streszczenie:

Masson / Loftus jest bardzo wyczerpujący i nie jest łatwą lekturą dla moich kolegów medycznych, którzy nie zaakceptowaliby czegoś w rodzaju „interakcji”. Mają też pewne sugestie dotyczące wielu porównań, które pokazują, że przedziały ufności w parach są trudne do zilustrowania, gdy nie chce się zbytnio upraszczać.

Masson Loftus

Nie podoba mi się ten styl: paski z paskami błędów wyglądają na ostatnie tysiąclecie. Jednak używają również nieco bardziej eleganckiego stylu:

Masson Loftus bez prętów

Cumming / Finch and Belia i in. są odczyty obowiązkowe. Pierwszy to idealny wybór, by dać swojemu przyjacielowi, który drży, gdy zobaczy słowo interakcja . Po przeczytaniu tego artykułu zamówiłem książkę Cumminga. Drugi pokazuje test, który przeprowadzę w Shiny na następne spotkanie badaczy medycznych.

Cumming / Finch

Podoba mi się ten wątek, nawet jeśli istnieje druga oś, z której nigdy wcześniej nie korzystałem; sprawdź wkład Henrika i innych osób w StackOverflow, aby uzyskać metodę grafiki opartą na języku R, aby go uzyskać. Wolałbym umieścić drugą oś po lewej stronie różnicy, aby absolutnie wyjaśnić, że wartości się zmieniły, i być może dodać oś wartości p.

Ktoś z frakcji kratowej / ggplot robi zdjęcie? Wszystkie dostarczone rozwiązania są grafiką podstawową i nie można ich tworzyć w panelach / aspektach.

Należy jednak pamiętać, że komentarze i artykuły pochodzą głównie z wydziału psychologii (i @cbeleites z hardcorowej chemii). Dobrze byłoby uzyskać komentarze od recenzentów czasopism medycznych.

— Dieter Menne
źródło

0

Dlaczego nie wykreślić różnicy * dla każdego pacjenta? Następnie można użyć histogramu, wykresu ramkowego lub normalnego wykresu prawdopodobieństwa i nałożyć 95% przedział ufności dla różnicy.

W niektórych scenariuszach może to być różnica logarytmów. Patrz na przykład Patterson & Jones, „Bioequivalence and Statistics in Clinical Pharmacology”, Chapman, 2006.

— Emil Friedman
źródło

Dlaczego nie? Może dostarczać ważnych informacji, ale wykresy z pojedynczymi punktami lub parami nie są tak naprawdę popularne w badaniach medycznych. Dlatego równoległe fabuły (które dostarczają więcej informacji) są tak niepopularne. Badacze medyczni chcą średnich i „normalnych zakresów” (cokolwiek to jest).

— Dieter Menne