Dlaczego w analizie przeżycia używamy modeli półparametrycznych (proporcjonalne zagrożenia Coxa) zamiast modeli w pełni parametrycznych?


24

Studiowałem model Cox Proporcjonalnych Zagrożeń i to pytanie jest przerzucone w większości tekstów.

Cox zaproponował dopasowanie współczynników funkcji Hazard przy użyciu metody częściowego prawdopodobieństwa, ale dlaczego nie po prostu dopasować współczynników parametrycznej funkcji przeżycia przy użyciu metody maksymalnego prawdopodobieństwa i modelu liniowego?

W każdym przypadku, gdy masz cenzurowane dane, możesz po prostu znaleźć obszar pod krzywą. Na przykład, jeśli twoje oszacowanie wynosi 380 przy odchyleniu standardowym 80, a próbka jest ocenzurowana> 300, istnieje prawdopodobieństwo 84% dla tej próbki w obliczeniu prawdopodobieństwa przy założeniu błędu normalnego.


O ile lubię tutaj zadawać pytania z zakresu nauk aktuarialnych, muszę powiedzieć, że to pytanie prawdopodobnie uzyska lepszą odpowiedź na stronie statystyk, Cross Validated. Możesz poprosić moderatora o migrację.
Wykres

W porządku, nie zdawałem sobie sprawy, że istnieje. Nie wiesz, jak poprosić o migrację. Proszę migrować?

@Graphth, również nie zdawałem sobie sprawy, że istnieje ... Nie znalazłem go na liście „wszystkich witryn”, czy mógłbyś link do niego tutaj? Dzięki

Odpowiedzi:


27

Jeśli znasz rozkład parametryczny, którego śledzą twoje dane, to stosując podejście oparte na maksymalnym prawdopodobieństwie, a rozkład ma sens. Prawdziwą zaletą regresji Cox Proportional Hazards jest to, że nadal można dopasowywać modele przeżycia bez znajomości (lub zakładania) rozkładu. Podajesz przykład używając rozkładu normalnego, ale większość czasów przeżycia (i innych typów danych, dla których stosowana jest regresja PH Coxa) nie zbliża się do podążenia za rozkładem normalnym. Niektórzy mogą stosować logarytmiczny normalny, Weibulla lub inny rozkład parametryczny, a jeśli chcesz przyjąć to założenie, podejście parametryczne o maksymalnym prawdopodobieństwie jest świetne. Ale w wielu rzeczywistych przypadkach nie wiemy, jaki jest odpowiedni rozkład (lub nawet wystarczająco dokładne przybliżenie). W przypadku cenzury i zmiennych towarzyszących nie możemy zrobić prostego histogramu i powiedzieć „to dla mnie wygląda jak… rozkład”. Dlatego bardzo przydatne jest posiadanie techniki, która działa dobrze bez potrzeby specyficznej dystrybucji.

Dlaczego warto korzystać z hazardu zamiast funkcji dystrybucji? Rozważ następujące stwierdzenie: „Ludzie w grupie A dwa razy częściej umierają w wieku 80 lat niż ludzie w grupie B”. To może być prawda, ponieważ ludzie w grupie B żyją dłużej niż ci w grupie A, lub może być tak, ponieważ ludzie w grupie B mają krótsze życie, a większość z nich nie żyje długo przed 80. rokiem życia, co daje bardzo małe prawdopodobieństwo z nich umiera w wieku 80 lat, podczas gdy wystarczająca liczba osób w grupie A żyje do 80, że znaczna ich liczba umrze w tym wieku, co daje znacznie większe prawdopodobieństwo śmierci w tym wieku. To samo stwierdzenie może oznaczać, że bycie w grupie A jest lepsze lub gorsze niż bycie w grupie B. Bardziej sensowne jest powiedzenie, że ludzie (w każdej grupie), którzy dożyli 80 lat, to jaki odsetek umrze, zanim osiągną 81 lat. To jest zagrożenie (a zagrożenie jest funkcją funkcji dystrybucji / funkcji przeżycia / itp.). Zagrożenie jest łatwiejsze do pracy w modelu półparametrycznym, a następnie może dostarczyć informacji o rozkładzie.


7
Niezła odpowiedź. Tym, co jest wyjątkowe w czasie, jest to, że biegnie on w jednym kierunku, a kiedy przetrwamy okres wysokiego ryzyka, jesteśmy głównie zainteresowani działającymi obecnie ryzykami. Tak mówi nam funkcja hazardu.
Frank Harrell,

2
Kolejną kwestią, którą warto dodać, jest to, że w przypadku cenzurowanych danych kontrola założeń dystrybucyjnych może być bardzo trudna. Załóżmy na przykład, że tylko 20% badanych obserwuje wydarzenie. Próba ustalenia, czy ogony rozkładu są zgodne z rozkładem Weibulla, najwyraźniej nie będzie możliwa! Model Cox-PH nieco omija ten problem (ale musisz bardzo uważać na założenie o proporcjonalnych zagrożeniach, jeśli chcesz ekstrapolować do obszarów, które były wysoce cenzurowane)
Cliff AB

16

„My” niekoniecznie. Zakres narzędzi do analizy przeżycia waha się od całkowicie nieparametrycznych, takich jak metoda Kaplana-Meiera, po modele w pełni parametryczne, w których określasz rozkład zagrożenia. Każdy ma swoje zalety i wady.

Metody półparametryczne, takie jak model proporcjonalnego hazardu Coxa, pozwalają uniknąć nieprecyzyjności podstawowej funkcji hazardu. Może to być pomocne, ponieważ nie zawsze wiemy, jaka jest podstawowa funkcja zagrożenia, aw wielu przypadkach również nie obchodzi nas to . Na przykład wiele badań epidemiologicznych chce wiedzieć „Czy narażenie X skraca czas do wystąpienia zdarzenia Y?” To, na czym im zależy, to różnica między pacjentami, którzy mają X, a którzy nie mają X. W takim przypadku podstawowe zagrożenie nie ma tak naprawdę znaczenia, a ryzyko jego błędnego określenia jest gorsze niż konsekwencje niewiedzy.

Są jednak chwile, kiedy to również nie jest prawdą. Pracowałem z modelami w pełni parametrycznymi, ponieważ leżące u ich podstaw zagrożenie było interesujące.


1
„... a ryzyko błędnego sprecyzowania jest gorsze niż konsekwencje niewiedzy”. To było bardzo pomocne, dziękuję.

Czy możesz podać przykład, kiedy leżące u podstaw zagrożenie byłoby interesujące?
Dan Chaltiel

1
@DanChaltiel Wszelkie oszacowania, które mają zostać wprowadzone do modelu matematycznego lub podobnego, byłyby przykładem - leżąca u podstaw funkcja zagrożenia jest szczególnie interesująca.
Fomite
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.