Jak ustalić, czy model przetrwania z brakującymi danymi jest odpowiedni?

9

Upraszczając nieco, mam około miliona rekordów, które rejestrują czas wejścia i wyjścia ludzi w systemie trwającym około dziesięciu lat. Każdy rekord ma czas wejścia, ale nie każdy rekord ma czas wyjścia. Średni czas w systemie wynosi ~ 1 rok.

Brakujące czasy wyjścia występują z dwóch powodów:

Osoba nie opuściła systemu w momencie przechwytywania danych.
Czas wyjścia danej osoby nie został zarejestrowany. Zdarza się to powiedzieć, że 50% zapisów

Do interesujących pytań należą:

Czy ludzie spędzają mniej czasu w systemie i ile mniej czasu.
Czy rejestruje się więcej czasów wyjścia i ile.

Możemy to modelować, mówiąc, że prawdopodobieństwo zarejestrowania wyjścia zmienia się liniowo w czasie i że czas w systemie ma Weibulla, którego parametry zmieniają się liniowo w czasie. Następnie możemy dokonać oceny maksymalnego prawdopodobieństwa różnych parametrów i spojrzeć na wyniki i uznać je za wiarygodne. Wybraliśmy rozkład Weibulla, ponieważ wydaje się, że jest używany do pomiaru żywotności i fajnie jest powiedzieć, a nie lepiej dopasowywać dane niż powiedzieć rozkład gamma.

Gdzie powinienem szukać wskazówek, jak to zrobić poprawnie? Jesteśmy nieco matematyczni, ale nie bardzo statystycznie.

survival missing-data

— deinst
źródło

5

Podstawowym sposobem sprawdzenia, czy Twoje dane są Weibull, jest wykreślenie dziennika skumulowanych zagrożeń w zależności od dziennika czasów i sprawdzenie, czy prosta linia może być dobrym dopasowaniem. Skumulowane zagrożenie można znaleźć za pomocą nieparametrycznego estymatora Nelson-Aalen. Istnieje podobna diagnostyka graficzna dla regresji Weibulla, jeśli dopasujesz dane do zmiennych towarzyszących, a niektóre odnośniki zostaną zamieszczone poniżej.

Tekst Kleina i Moeschbergera jest całkiem niezły i obejmuje dużo miejsca z budowaniem / diagnostyką modeli dla modeli parametrycznych i półparametrycznych (choć głównie tych drugich). Jeśli pracujesz w R, książka Theneau jest całkiem dobra (wydaje mi się, że napisał pakiet przetrwania ). Obejmuje wiele modeli Cox PH i powiązanych modeli, ale nie pamiętam, czy ma duży zasięg modeli parametrycznych, takich jak ten, który budujesz.

BTW, czy to milion osób z jednym wejściem / wyjściem lub cyklicznymi wydarzeniami wejścia / wyjścia dla jakiejś mniejszej grupy osób? Czy uzależniasz swoje prawdopodobieństwo uwzględnienia mechanizmu cenzury?

— ars
źródło

Dzięki, właśnie tego szukałem. Zasadniczo jest to milion osób z czasem wejścia i wyjścia. Tak, warunkujemy uwzględnienie cenzury.

— deinst

2

Możesz użyć modelu szacunkowego, aby przewidzieć czasy wyjścia dla wszystkich osób w twoim systemie. Następnie możesz porównać szacunkowe czasy wyjścia z rzeczywistymi czasami wyjścia (tam, gdzie masz te dane) i obliczyć metrykę, taką jak RMSE, aby ocenić, jak dobre są twoje przewidywania, co z kolei da ci poczucie dopasowania modelu. Zobacz także ten link .

1

W przypadku punktów Millona i modelu 8-parametrowego test dobroci dopasowania, taki jak chi-kwadrat, mówi mi, że zasadniczo nie ma szans na poprawność modelu. (Co nie jest zaskakujące, ponieważ istnieją nieskończone czynniki wpływające na rzeczywistość, których nie ma w modelu) RMSE daje mi poczucie, jak dobrze model pasuje do danych, ale nie daje mi pojęcia, czy istnieje lepszy model

— deinst

Cóż, aby dowiedzieć się, czy istnieje lepszy model, możesz albo eksperymentować z różnymi formułami, albo użyć różnych wykresów (np. Czasy wyjścia w funkcji czasu), aby sprawdzić, czy dane są zgodne z założeniami modelu. Można również wykreślić przewidywane czasy wyjścia dla małej próbki wybranej losowo w stosunku do rzeczywistych czasów w celu uzyskania pomysłów na ulepszenie modelu.