Dlaczego wpływ na stronniczość ma zakończenie badania klinicznego na wczesnym etapie?


24

Analiza okresowa to analiza danych w jednym lub więcej punktach czasowych przed oficjalnym zamknięciem badania z zamiarem np. Ewentualnego wcześniejszego zakończenia badania.

Według Piantadosi, S. ( Badania kliniczne - perspektywa metodologiczna ): „ Oszacowanie efektu leczenia będzie tendencyjne, gdy badanie zostanie zakończone na wczesnym etapie. Im wcześniej decyzja, tym większy błąd ”.

Czy możesz mi wyjaśnić to twierdzenie. Mogę łatwo zrozumieć, że wpłynie to na dokładność, ale twierdzenie o stronniczości nie jest dla mnie oczywiste ...


Myślę, że jest to idealne pytanie, aby „wyjaśnić” różnice między metodologią Bayesa i Frequentist
probabilityislogic

Odpowiedzi:


13

Przede wszystkim należy zwrócić uwagę na kontekst: ma to zastosowanie tylko wtedy, gdy badanie zostało przerwane wcześniej ze względu na tymczasowe monitorowanie skuteczności / daremności, a nie z jakiegoś losowego powodu zewnętrznego. W takim przypadku oszacowanie wielkości efektu będzie tendencyjne w całkowicie statystycznym sensie. Jeśli zatrzymałeś się na skuteczność, szacowany efekt będzie zbyt wysoki (zakładając, że jest pozytywny), jeśli zatrzymasz się na marność, będzie on zbyt niski.

Piantodosi podaje również intuicyjne wyjaśnienie (Sec 10.5.4 w moim wydaniu). Załóżmy, że prawdziwa różnica na dwa sposoby wynosi 1 jednostkę. Kiedy przeprowadzasz wiele prób i patrzysz na nie w czasie analizy tymczasowej, niektóre z nich zaobserwują rozmiary efektów znacznie powyżej 1, niektóre znacznie poniżej jednego, a większość około 1 - rozkład będzie szeroki, ale symetryczny. Szacowany rozmiar efektu w tym momencie nie byłby bardzo dokładny, ale byłby obiektywny. Jednak zatrzymujesz się i zgłaszasz rozmiar efektu tylko wtedy, gdy różnica jest znacząca (skorygowana o wielokrotne testowanie), to znaczy, że szacunek jest zawyżony. We wszystkich innych przypadkach kontynuujesz i nie zgłaszasz szacunków. Oznacza to, że pod warunkiem wcześniejszego zatrzymania, rozkład wielkości efektu nie jest symetryczny, a jego oczekiwana wartość jest wyższa od prawdziwej wartości oszacowania.

Fakt, że ten efekt jest silniejszy na początku, wynika z większej przeszkody w zatrzymaniu próby, a zatem większa część rozkładu jest wyrzucana podczas kondycjonowania.


1
Na początku też tak myślałem, ale kiedy usiadłem, aby to udowodnić, nie mogłem: mogłem tylko pokazać, że wynikowe oszacowanie faktycznie jest obiektywne. (Nowa intuicja: pozytywne nastawienie z zatrzymania warunkowego równoważy negatywne nastawienie od przeprowadzenia eksperymentu do zakończenia.) Więc: czy możesz przedstawić bardziej rygorystyczną demonstrację?
whuber

@whuber postaram się napisać go, ale chodzi o to, że oświadczenie Piantodosi jest tylko o tym, co się dzieje, kiedy zrobić przystanek wcześniej. Nie ma ukończenia, aby to zrównoważyć.
Aniko,

2
@ whuber Tak, tak twierdzi również oryginalne oświadczenie. Twierdzenie, że po ukończeniu badania wystąpi przeciwne uprzedzenie, jest również ważne. Cała wiadomość powinna być taka, że ​​po rozpoczęciu tymczasowego monitorowania, zabawne rzeczy zaczną się dziać z twoją zdolnością do oszacowania wielkości efektu.
Aniko,

3
@Aniko Powinna istnieć możliwość korekty odchylenia, gdy nastąpi wcześniejsze zakończenie. Wydaje się zatem, że omawiamy naiwne zastosowanie standardowego estymatora, przeznaczonego do losowych próbek o stałej wielkości, w eksperymentach zakończonych warunkowo, gdzie takie estymatory nie mają pożądanych właściwości. (
Nawiasem mówiąc

2
@ whuber Oczywiście, możesz dostosować się do tego uprzedzenia, ale najpierw musisz rozpoznać, że istnieje. A następnie musisz sprzedać badaczowi, że nawet jeśli wyraźnie 5 na 10 pacjentów odpowiedziało, szacowany odsetek odpowiedzi wynosi 40% (liczby uzupełnione) po skorygowaniu o błąd systematyczny z powodu wczesnego zatrzymania.
Aniko,

3

Oto ilustracja tego, jak stronniczość może wynikać z wniosków i dlaczego może to nie być pełna historia. Załóżmy, że masz sekwencyjne badanie leku, który powinien mieć pozytywny (+1) efekt, ale może mieć negatywny efekt (-1). Pięć świnek morskich bada się jedna po drugiej. Nieznane prawdopodobieństwo pozytywnego wyniku w pojedynczym przypadku wynosi w rzeczywistości i wynik negatywny134 .14

Zatem po pięciu próbach prawdopodobieństwo różnych wyników jest

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

więc ogólne prawdopodobieństwo pozytywnego wyniku wynosi 918/1024 = 0,896, a średni wynik wynosi +2,5. Dzieląc przez 5 prób, jest to średnio wynik +0,5 na próbę.

Jest to postać obiektywna, ponieważ jest to również .+1×341×14

Załóżmy, że w celu ochrony świnek morskich badanie zostanie zakończone, jeśli na dowolnym etapie łączny wynik będzie ujemny. Wtedy stają się prawdopodobieństwa

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

więc ogólne prawdopodobieństwo pozytywnego wyniku wynosi 702/1024 = 0,6855, a średni wynik to +1.953. Gdybyśmy oceniali średnią wartość wyniku na próbę w poprzednim obliczeniu, tj. Używając ,+3+55 ,+1+35 ,-1+15 ,-115 i-113 wtedy otrzymalibyśmy +0,184.11

Są to zmysły, w których występuje uprzedzenie poprzez zatrzymanie się na wczesnym etapie drugiego schematu, a uprzedzenie jest w przewidywanym kierunku. Ale to nie jest pełna historia.

Dlaczego myśl i prawdopodobieństwo logiczne, że wczesne zatrzymanie powinno przynosić obiektywne wyniki? Wiemy, że oczekiwany wynik prób w drugim schemacie wynosi +1.953. Oczekiwana liczba prób to 3,906. Dzieląc jeden za drugim, otrzymujemy +0,5, dokładnie tak jak poprzednio i to, co zostało określone jako obiektywne.


bierzesz perspektywę świata „przed danymi”. To, co mówisz, jest prawdą, że reguła zatrzymania ma znaczenie, ale tylko zanim rozważysz dane . Wynika to z faktu, że reguła zatrzymywania dostarcza informacji o danych, ale nie o prawdziwych prawdopodobieństwach. Więc kiedy dane są już wprowadzone, reguła zatrzymywania nie ma już znaczenia. Zauważ, że prawdziwe prawdopodobieństwa nie są znane w rzeczywistym eksperymencie. Musisz więc wziąć pod uwagę sytuacje, w których prawdopodobieństwa są, powiedzmy iP(-)=3P(+)=14 , a także dowolną inną możliwą kombinację. P()=34
probabilityislogic

Biorę więc twój przykład za stwierdzenie, że . To z pewnością prawda! Moja odpowiedź także na warunki D chociaż. Wynika to z faktu, że jeśli powiesz mi regułę zatrzymywania, ale nie to, czy faktycznie przestałeś, mogę to ustalić na podstawie zestawu danych, który faktycznie posiadam. W rzeczywistości mogę dowiedzieć się, czy jakakolwiek reguła zatrzymania zostałaby rzeczywiście zatrzymana, gdy tylko poznam dane. P(H|S,I)P(H|I)D
probabilityislogic

1

Cóż, moja wiedza na ten temat pochodzi z Harveian oracji w 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 Zasadniczo, do mojej najlepszej skupienia wyniki będą tendencyjne jak 1) zatrzymanie na początku zazwyczaj oznacza, że ​​albo leczenie było mniej lub bardziej skuteczne, niż się spodziewano, a jeśli jest to pozytywne, możesz wykorzystać przypadek. Uważam, że wartości p są obliczane na podstawie planowanej wielkości próby (ale mogę się mylić w tym zakresie), a także jeśli ciągle sprawdzasz swoje wyniki, aby zobaczyć, czy jakieś efekty zostały pokazane, musisz poprawić wielokrotne porównania w celu zapewnienia, że ​​nie znajdziesz jedynie efektu szansy. Na przykład, jeśli sprawdzisz 20 razy wartości p poniżej 0,05, a następnie statystycznie, prawie na pewno znajdziesz jeden znaczący wynik.


CZĘŚĆ 1 Przede wszystkim dziękuję za odpowiedź. Rzeczywiście, metody częstokroć poprawne do wielokrotnych testów. Stąd problem tendencyjnego oszacowania efektu leczenia nie może stamtąd pochodzić. W analizie okresowej test opiera się na bieżących informacjach, przy użyciu bieżącej wielkości próby, a nie ogólnej planowanej wielkości próby. Problem też nie stamtąd pochodzi.
ocram

CZĘŚĆ 2 Zgadzam się, że wcześniejsze przerwanie może oznaczać, że leczenie jest „skuteczniejsze niż jeden chmiel”. W tym sensie szacunkowy efekt leczenia byłby większy niż oczekiwano. Ale według mnie nie powoduje to tendencyjności ... Zamiast tego, według mnie, w pewnym sensie „nasza nadzieja była stronnicza”.
ocram

1

Nie zgodziłbym się z tym twierdzeniem, chyba że „stronniczość” Piantadosi oznacza tę część dokładności, która jest powszechnie nazywana stronniczością. Wnioskowanie nie będzie „stronnicze”, ponieważ zdecydowałeś się zatrzymać per se: będzie „stronnicze”, ponieważ masz mniej danych. Tak zwana „zasada prawdopodobieństwa” stanowi, że wnioskowanie powinno zależeć tylko od danych, które zaobserwowano, a nie od danych, które można było zaobserwować, ale nie. LP mówi

P(H|D,S,I)=P(H|D,I)

HDSIDIS=g(D,I)AA=AS=g(D,I)DID,S,I=D,g(D,I),I=D,IDI to ma znaczenie.


@probabilityislogic: Dziękujemy! Jeśli dobrze to rozumiem, „stronniczości” nie należy interpretować statystycznie. Myślę, że ma to sens, ponieważ Piantadosi mówi o „uprzedzeniu” szacunku, a nie estymatora ...
ocram

E(μμ^)2=var(μ^)+Bias(μ^)μμ^jest „estymatorem”. Jeśli drugi termin (błąd systematyczny) zależy od wielkości próbki, można oczekiwać, że wcześniejsze zatrzymanie zwiększy błąd systematyczny, ponieważ zmniejszył on wielkość próbki, w porównaniu z kontynuacją eksperymentu. Ale z tego, co mówisz, brzmi to jak „stronniczość” należy interpretować jako „błąd” z punktu widzenia Piantadosiego.
probabilityislogic

1
Argument ten nie mówi nic o uprzedzeniu, tylko aspekt problemu testowania hipotezy, którego nikt nie kwestionuje.
Aniko,

@Prob Muszę się zgodzić z @Aniko: oczywiste jest, że gdy wartość null jest prawdziwa, istnieje dodatnie prawdopodobieństwo wcześniejszego zakończenia, w takim przypadku oszacowanie efektu będzie niezerowe. Zatem oczekiwane oszacowanie efektu, uwarunkowane wcześniejszym zakończeniem, jest dodatnie, podczas gdy bezwarunkowe oczekiwanie wynosi zero. (Zauważ, że PO zajmuje się szacowaniem , a nie testowaniem hipotez.)
whuber

Hμ(a,a+da)SDISSSDIμ
prawdopodobieństwo prawdopodobieństwo

0

nie będzie mieć nastawienie (w „sensie statystycznym”), jeżeli zakończenie studiów nie jest przypadkowa.

W zestawie eksperymentów do konkluzji, „wczesne” wyniki (a) niektórych eksperymentów, które ostatecznie okażą „brak efektu”, pokażą pewien efekt (w wyniku przypadku) i (b) niektóre eksperymenty, które ostatecznie znajdą efekt pokaże „brak efektu” (prawdopodobnie w wyniku braku mocy). W świecie, w którym kończysz próby, jeśli przestaniesz (a) częściej niż (b), skończysz w serii badań z uprzedzeniami na rzecz znalezienia efektu. (Ta sama logika dotyczy wielkości efektów ; kończenie badań, które wykazują efekt „większy niż oczekiwano” wcześniej niż częściej niż te, które wykazują „zgodnie z oczekiwaniami lub mniej” spowoduje zawyżenie liczby wyników „dużego efektu”).

Jeśli w rzeczywistości badania medyczne zostaną zakończone, gdy wczesne wyniki wykażą pozytywny efekt - w celu udostępnienia leczenia osobom w grupie placebo lub innym - ale nie wtedy, gdy wczesne wyniki nie przyniosą jednoznacznych rezultatów, w takich testach wystąpi więcej błędów typu 1 niż byłoby, gdyby wszystkie eksperymenty zostały zakończone. Ale to nie znaczy, że praktyka jest zła; koszt błędu typu 1, moralnie rzecz biorąc, może być niższy niż odmowa leczenia tak szybko, jak w innym przypadku dla zabiegów, które naprawdę okazałyby się skuteczne pod koniec pełnego badania.


Proszę zobaczyć mój komentarz do odpowiedzi Aniko, ponieważ zadałbym to samo pytanie: czy możesz przedstawić bardziej rygorystyczną demonstrację?
whuber

Odkładam się na Aniko - robi lepszą robotę niż ja. Ale jeśli zgodzisz się, że „efekt szuflady biurka” powoduje stronniczość, logika tutaj jest identyczna. Istnieje poparcie dla danych wspierających hipotezę - w pierwszym przypadku b / c nieobsługiwanych danych nie zgłasza się, w drugim b / c pewna część nieobsługiwanych danych niekoniecznie jest gromadzona: Zakończenie próby wcześnie, gdy wyniki wyglądają dobrze, wyklucza tę część dystrybucji „złych wyników” zapełnianą próbami, które przyniosą późne wyniki . Może to odchylenie może być skorygowane - ale uprzedzenie wymaga korekty.
dmk38,

@dmk Właśnie próbuję zachęcić was do debaty z @Probability, z którą wydaje się, że zdecydowanie się nie zgadzacie ;-).
whuber

1
P.(re|H.,S.,ja)jako „odpowiedź”, a jeśli jest to obiekt, to reguła zatrzymania ma znaczenie. Ale na jakie pytanie jest odpowiedź? Dla mnie odpowiada to na pytanie: „jakie dane prawdopodobnie obserwujemy, biorąc pod uwagę, że hipoteza jest prawdziwa (lub parametr jest określany jako wartość), że przestaliśmy wcześnie i na podstawie naszych wcześniejszych informacji?” Ale to nie jest pytanie, które jest zadawane, tak myślę (więcej później)
probabilityislogic

1
@probability Jest to jeden ze sposobów, aby na to spojrzeć. Innym jest całkowite uniknięcie hipotezy i odniesienie się do faktycznie zadanego pytania; to znaczy , jaki jest rozmiar efektu leczenia ? Z tego punktu widzenia zakończenie może nastąpić, gdy oszacowanie jest znane z wystarczającą dokładnością, aby wspierać podejmowanie decyzji. Na przykład, możemy chcieć mieć dużą pewność, że wzrost zdrowia wynikający z przepisania leczenia prawdopodobnie przekroczy koszty (i skutki uboczne) leczenia.
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.