Najlepsza praktyka podczas analizowania projektów kontroli przed zabiegiem


53

Wyobraź sobie następujący wspólny projekt:

  • 100 uczestników jest losowo przydzielanych do grupy terapeutycznej lub kontrolnej
  • zmienna zależna jest liczbowa i mierzona przed i po leczeniu

Trzy oczywiste opcje analizy takich danych to:

  • Przetestuj grupę według efektu interakcji czasowej w mieszanej ANOVA
  • Wykonaj ANCOVA z warunkiem jako IV, a wstępną miarą jako zmienną towarzyszącą i post-miarą jako DV
  • Wykonaj test t z warunkiem jak IV i przed zmianą wyniki jako DV

Pytanie:

  • Jaki jest najlepszy sposób analizy takich danych?
  • Czy istnieją powody, by preferować jedno podejście od drugiego?

1
Kiedy mówisz „warunek”, masz na myśli przypisanie do grupy?
pmgjones

1
@propofol: tak. przeprasza, jeśli mój język nie jest jasny.
Jeromy Anglim,

1
Istnieją również parametryczne metody „N-of-1” do statystycznej oceny danych czasowych dla pojedynczych obserwacji. Przykład zastosowania: ncbi.nlm.nih.gov/pubmed/2039432 Metody porównawcze: europepmc.org/abstract/MED/10557859/…
user31256

Odpowiedzi:


34

Istnieje ogromna literatura na ten temat (zmiana / zysk) i myślę, że najlepsze referencje pochodzą z dziedziny biomedycznej, np.

Senn, S (2007). Zagadnienia statystyczne w opracowywaniu leków . Wiley (rozdz. 7 s. 96–112)

W badaniach biomedycznych wykonano również interesującą pracę w ramach badań krzyżowych (szczególnie w odniesieniu do efektów przeniesienia , chociaż nie wiem, jak ma to zastosowanie do twojego badania).

Od Gain Score t do ANCOVA F (i odwrotnie) , Knapp & Schaffer, zapewnia interesujący przegląd podejścia ANCOVA vs. t (tak zwany paradoks Lorda). Prosta analiza wyników zmian nie jest zalecanym sposobem projektowania przed / po według Senna w jego artykule Zmiana od linii bazowej i ponownej analizy kowariancji (Stat. Med. 2006 25 (24)). Co więcej, zastosowanie modelu z efektami mieszanymi (np. W celu uwzględnienia korelacji między dwoma punktami czasowymi) nie jest lepsze, ponieważ naprawdę trzeba użyć pomiaru „wstępnego” jako współzmiennej w celu zwiększenia precyzji (poprzez dostosowanie). Bardzo krótko:

  • Wariancja estymatora zastosowanego w ANCOVA jest na ogół niższa niż dla wyników surowych lub zmian (chyba że korelacja między przed i po wynosi 1).
  • Jeśli relacje przed / po różnią się między dwiema grupami (nachylenie), nie stanowi to większego problemu niż w przypadku innych metod (podejście z wynikami zmian zakłada również, że związek jest identyczny między dwiema grupami - hipoteza równoległego nachylenia ).
  • Zgodnie z zerową hipotezą o równości traktowania (na podstawie wyniku), nie oczekuje się leczenia interakcji x wartość wyjściowa; Dopasowywanie takiego modelu jest niebezpieczne, ale w tym przypadku należy zastosować wyśrodkowane linie bazowe (w przeciwnym razie efekt leczenia jest szacowany na początku zmiennej współzmiennej).

Podoba mi się także dziesięć mitów różnic w wynikach z Edwards, choć skupia się na różnicach w innym kontekście; ale tutaj jest bibliografia z adnotacjami na temat analizy zmian poprzedzających publikację (niestety, nie obejmuje ona najnowszych prac). Van Breukelen porównał także ANOVA vs. ANCOVA w warunkach randomizowanych i nierandomizowanych, a jego wnioski potwierdzają pogląd, że ANCOVA powinna być preferowana, przynajmniej w badaniach randomizowanych (które zapobiegają regresji do efektu średniego).


Wyjaśnij: czy masz na myśli, że ANCOVA z wynikami przed testem jako zmiennymi towarzyszącymi jest najlepszą opcją?
mkt - Przywróć Monikę

17

Daniel B. Wright omawia to w sekcji 5 swojego artykułu Zaprzyjaźnienie się z Twoimi danymi . Sugeruje (s.130):

Jedyną procedurą, która zawsze jest poprawna w tej sytuacji, jest wykres rozrzutu porównujący wyniki w czasie 2 z wynikami w czasie 1 dla różnych grup. W większości przypadków dane należy analizować na kilka sposobów. Jeśli podejścia dają różne wyniki ... pomyśl bardziej dokładnie o modelu implikowanym przez każdy z nich.

Jako dalsze czytanie zaleca następujące artykuły:

  • Hand, DJ (1994). Dekonstruowanie pytań statystycznych. Journal of Royal Statistics Society: A, 157, 317–356.
  • Lord, FM (1967). Paradoks w interpretacji porównań grupowych. Biuletyn psychologiczny, 72, 304–305. Darmowy plik PDF
  • Wainer, H. (1991). Dostosowanie do różnicowych stawek bazowych: znowu paradoks Pana. Biuletyn psychologiczny, 109, 147–151. Darmowy plik PDF

9

Najpopularniejsze strategie to:

  1. Powtarzane pomiary ANOVA z jednym czynnikiem wewnątrz podmiotu (przed vs. testem) i jednym czynnikiem między podmiotem (leczenie vs. kontrola).
  2. ANCOVA dla wyników po leczeniu, z wynikiem przed leczeniem jako zmienną towarzyszącą i leczeniem jako niezależną zmienną. Intuicyjnie chodzi o to, że test różnic między obiema grupami jest naprawdę tym, czego szukasz, i włączenie wyników przed testem, ponieważ zmienna towarzysząca może zwiększyć moc w porównaniu z prostym testem t lub ANOVA.

Istnieje wiele dyskusji na temat interpretacji, założeń i pozornie paradoksalnych różnic między tymi dwoma podejściami i bardziej wyrafinowanych alternatyw (szczególnie, gdy uczestnicy nie mogą zostać losowo przydzieleni do leczenia), ale myślę, że pozostają dość standardowe.

Jednym ważnym źródłem nieporozumień jest to, że dla ANOVA efektem zainteresowania jest najprawdopodobniej interakcja między czasem a leczeniem, a nie główny efekt leczenia. Nawiasem mówiąc, test F dla tego terminu interakcji da dokładnie ten sam wynik niż test niezależnej próby t na wyniki wzmocnienia (tj. Wyniki uzyskane przez odjęcie wyniku przed testem od wyniku po badaniu dla każdego uczestnika), więc możesz też idź na to.

Jeśli to wszystko jest zbyt wiele, nie masz czasu, aby to rozgryźć i nie możesz uzyskać pomocy od statystyki, szybkie i brudne, ale w żadnym wypadku całkowicie absurdalne podejście nie byłoby po prostu porównywać wyników po teście z niezależny próbny test t, ignorując wartości sprzed testu. Ma to sens tylko wtedy, gdy uczestnicy zostali losowo przydzieleni do grupy leczonej lub kontrolnej .

Wreszcie, to nie jest sam w sobie bardzo dobry powód, aby go wybrać, ale podejrzewam, że podejście 2 powyżej (ANCOVA) jest obecnie tym, co obecnie przyjmuje właściwe podejście w psychologii, więc jeśli wybierzesz coś innego, być może będziesz musiał szczegółowo wyjaśnić tę technikę lub uzasadnić do kogoś, kto jest przekonany, np. że „wyniki są znane jako złe”.


1
Powiedziałbym, że pierwsza rekomendacja, ANOVA z powtarzanymi pomiarami, nie jest odpowiednia do analizy danych sprzed publikacji. Czy leczenie jest kodowane na 0 w grupie interwencyjnej na początku? Tak czy inaczej, przywraca to efekt Hawthorne'a. Systematyczne różnice w kontrolach przed / po są kontrolowane do przypadkowej zmienności. RM AN C OVA jest uzasadniona, gdy istnieje wiele pomiarów w okresie po okresie, a wartości wyjściowe są nadal korygowane jako zmienna towarzysząca lub stosowane jako wynik wzmocnienia.
AdamO,

2

ANCOVA i powtarzane pomiary / model mieszany dla terminu interakcji testują dwie różne hipotezy. Zobacz ten artykuł: artykuł 1 i ten artykuł: artykuł 2


-2

Ponieważ masz dwa sposoby (albo na konkretny przedmiot, albo na sumę ekwipunku), nie ma powodu, aby rozważać ANOVA. Sparowany test t jest prawdopodobnie odpowiedni; może to pomóc Ci wybrać, którego testu t potrzebujesz.

Czy chcesz spojrzeć na wyniki dla poszczególnych przedmiotów, czy na ogólne wyniki? Jeśli chcesz przeprowadzić analizę przedmiotu, może to być przydatne miejsce początkowe.


4
Co z grupą kontrolną? Sparowany test t wszystkich danych wydaje się złym pomysłem i na pewno nie odnosi się do głównego pytania (czy leczenie jest skuteczne?). Sparowany test t ograniczony do grupy leczonej jest prawdopodobną strategią, ale ignorowanie grupy kontrolnej odrzuca wiele danych i stanowi znacznie słabszy dowód na to, że interwencja jest w rzeczywistości składnikiem aktywnym. ANOVA jest w rzeczywistości powszechnym - choć często krytykowanym - sposobem analizy tego projektu.
Gala
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.