Próbuję przeprowadzić dyskretną analizę przeżycia czasowego przy użyciu modelu regresji logistycznej i nie jestem pewien, czy całkowicie rozumiem ten proces. Byłbym bardzo wdzięczny za pomoc w kilku podstawowych pytaniach.
Oto konfiguracja:
Patrzę na członkostwo w grupie w ciągu pięciu lat. Każdy członek ma miesięczny zapis członkostwa za każdy miesiąc, gdy członek jest w grupie. Rozważam wszystkich członków, których członkostwo rozpoczęło się podczas pięcioletniego okresu (aby uniknąć problemów z „lewą cenzurą” z członkami, którzy dołączyli wcześniej). Każdy rekord będzie indeksowany według czasu, przy czym pierwszy będzie miesiącem członkostwa. Tak więc członek, który zostanie dwa i pół roku, będzie miał trzydzieści miesięcznych zapisów, ponumerowanych od jednego do trzydziestu. Każdy rekord otrzyma również zmienną binarną, która będzie miała wartość jeden dla ostatniego miesiąca członkostwa, a zero w przeciwnym razie; wartość jeden dla zmiennej binarnej oznacza zdarzenie, że członek opuścił grupę. Dla każdego członka, którego członkostwo trwa dłużej niż pięcioletni okres analizy,
Zatem model regresji logistycznej został zbudowany w celu przewidywania wartości zmiennej zdarzenia binarnego. Jak na razie dobrze. Jednym z typowych sposobów oceny binarnego modelu predykcyjnego jest pomiar wzrostu na próbce wstrzymującej. W przypadku modelu regresji logistycznej, który zbudowałem w celu przewidywania zakończenia członkostwa, obliczyłem wzrost w zestawie danych wstrzymania ze stosunkiem nieistnienia zdarzeń do zdarzeń wynoszącym pięć do jednego. Podzieliłem przewidywane wartości na decyle. Decyl o najwyższych przewidywanych wartościach zawiera siedemdziesiąt procent, co oznacza wzrost o ponad cztery. Pierwsze dwa połączone decyle zawierają sześćdziesiąt pięć procent wszystkich zatrzymanych. W niektórych kontekstach byłoby to uważane za dość przyzwoity model predykcyjny, ale zastanawiam się, czy jest wystarczająco dobry do przeprowadzenia analizy przeżycia.
Niech będzie funkcją hazardu dla pojedynczej w miesiącu , a niech będzie prawdopodobieństwem, że jednostka przeżyje przez miesiąc .j k S [ j , k ] j k
Oto moje podstawowe pytania:
Czy funkcja ryzyka dyskretnego jest warunkowym prawdopodobieństwem przeżycia (opuszczenia grupy) w każdym miesiącu?
Czy przewidywane wartości z oszacowań modelu regresji logistycznej funkcji hazardu? (tj. czy równe przewidywanej wartości modelu dla pojedynczego w miesiącu , czy też należy zrobić coś więcej, aby uzyskać oszacowania funkcji zagrożenia?)j k
Czy prawdopodobieństwo przeżycia do miesiąca q dla pojedynczego równe iloczynowi jednego minus funkcja hazardu od miesiąca pierwszego do , to znaczy, czy ?
Czy średnia wartość wszystkich osobników za każdym razem jest rozsądnym oszacowaniem średniego prawdopodobieństwa przeżycia w całej populacji?j k
Czy wykres ogólnej populacji powinien oznaczać prawdopodobieństwo przeżycia według miesiąca przypominać miesięczny wykres Kaplana-Meiera?
Jeśli odpowiedź na którekolwiek z tych pytań brzmi „nie”, mam poważne nieporozumienie i naprawdę mogę skorzystać z pomocy / wyjaśnienia. Czy istnieje jakakolwiek reguła dotycząca tego, jak dobry musi być binarny model predykcyjny, aby uzyskać dokładny profil przeżycia?