Podstawowe pytania dotyczące dyskretnej analizy przeżycia czasowego

Próbuję przeprowadzić dyskretną analizę przeżycia czasowego przy użyciu modelu regresji logistycznej i nie jestem pewien, czy całkowicie rozumiem ten proces. Byłbym bardzo wdzięczny za pomoc w kilku podstawowych pytaniach.

Oto konfiguracja:

Patrzę na członkostwo w grupie w ciągu pięciu lat. Każdy członek ma miesięczny zapis członkostwa za każdy miesiąc, gdy członek jest w grupie. Rozważam wszystkich członków, których członkostwo rozpoczęło się podczas pięcioletniego okresu (aby uniknąć problemów z „lewą cenzurą” z członkami, którzy dołączyli wcześniej). Każdy rekord będzie indeksowany według czasu, przy czym pierwszy będzie miesiącem członkostwa. Tak więc członek, który zostanie dwa i pół roku, będzie miał trzydzieści miesięcznych zapisów, ponumerowanych od jednego do trzydziestu. Każdy rekord otrzyma również zmienną binarną, która będzie miała wartość jeden dla ostatniego miesiąca członkostwa, a zero w przeciwnym razie; wartość jeden dla zmiennej binarnej oznacza zdarzenie, że członek opuścił grupę. Dla każdego członka, którego członkostwo trwa dłużej niż pięcioletni okres analizy,

Zatem model regresji logistycznej został zbudowany w celu przewidywania wartości zmiennej zdarzenia binarnego. Jak na razie dobrze. Jednym z typowych sposobów oceny binarnego modelu predykcyjnego jest pomiar wzrostu na próbce wstrzymującej. W przypadku modelu regresji logistycznej, który zbudowałem w celu przewidywania zakończenia członkostwa, obliczyłem wzrost w zestawie danych wstrzymania ze stosunkiem nieistnienia zdarzeń do zdarzeń wynoszącym pięć do jednego. Podzieliłem przewidywane wartości na decyle. Decyl o najwyższych przewidywanych wartościach zawiera siedemdziesiąt procent, co oznacza wzrost o ponad cztery. Pierwsze dwa połączone decyle zawierają sześćdziesiąt pięć procent wszystkich zatrzymanych. W niektórych kontekstach byłoby to uważane za dość przyzwoity model predykcyjny, ale zastanawiam się, czy jest wystarczająco dobry do przeprowadzenia analizy przeżycia.

Niech będzie funkcją hazardu dla pojedynczej w miesiącu , a niech będzie prawdopodobieństwem, że jednostka przeżyje przez miesiąc . $h[j,k]$ $j$ $k$ $S[j,k]$ $j$ $k$

Oto moje podstawowe pytania:

Czy funkcja ryzyka dyskretnego jest warunkowym prawdopodobieństwem przeżycia (opuszczenia grupy) w każdym miesiącu? $h[j,k]$
Czy przewidywane wartości z oszacowań modelu regresji logistycznej funkcji hazardu? (tj. czy równe przewidywanej wartości modelu dla pojedynczego w miesiącu , czy też należy zrobić coś więcej, aby uzyskać oszacowania funkcji zagrożenia?) $h[j,k]$ $j$ $k$
Czy prawdopodobieństwo przeżycia do miesiąca q dla pojedynczego równe iloczynowi jednego minus funkcja hazardu od miesiąca pierwszego do , to znaczy, czy ? $j$ $q$ $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$
Czy średnia wartość wszystkich osobników za każdym razem jest rozsądnym oszacowaniem średniego prawdopodobieństwa przeżycia w całej populacji? $S[j,k]$ $j$ $k$
Czy wykres ogólnej populacji powinien oznaczać prawdopodobieństwo przeżycia według miesiąca przypominać miesięczny wykres Kaplana-Meiera?

Jeśli odpowiedź na którekolwiek z tych pytań brzmi „nie”, mam poważne nieporozumienie i naprawdę mogę skorzystać z pomocy / wyjaśnienia. Czy istnieje jakakolwiek reguła dotycząca tego, jak dobry musi być binarny model predykcyjny, aby uzyskać dokładny profil przeżycia?

— Talbot Katz
źródło

Może to pomoże ci w niektórych pytaniach

— jujae

Załóżmy, że $K$ jest największą wartością $k$ (tj. Największym miesiącem / okresem zaobserwowanym w twoich danych).

Oto funkcja hazardu z całkowicie dyskretną parametryzacją czasu, a z wektorem parametrów $\mathbf{B}$ wektor zmiennych warunkowych $\mathbf{X}$ : $h_{j,k} = \frac{e^{\alpha_{k} + \mathbf{BX}}}{1 + e^{\alpha_{k} + \mathbf{BX}}}$ . Funkcję hazardu można również zbudować wokół alternatywnych parametryzacji czasu (np. Uwzględnij $k$ lub jej funkcje jako zmienne w modelu) lub wokół hybrydy obu.

Bazowa funkcja zagrożenia logarytmicznej określa prawdopodobieństwo wystąpienia zdarzenia w czasie $k$ , warunkowego po przetrwały do czasu $k$ . Dodanie predyktorów ( $\mathbf{X}$ ) do modelu dodatkowo ogranicza tę warunkowość.
Nie, logistyczne oszacowania regresji $\hat{\alpha}_{1}$ , $\dots$ , , ) są nie same funkcje zagrożenia. Modele regresji logistycznej: logit , i musisz wykonać transformację logarytmiczną w (1) powyżej, aby uzyskać oszacowania zagrożenia. $\hat{\alpha}_{K}$ $\mathbf{\hat{B}}$ $(h_{j,k}) = \alpha_{k} + \mathbf{BX}$
Tak. Chociaż ja zapisywać It . Funkcja przeżycia jest prawdopodobieństwo nie przeżywa zdarzenia według czasu , i oczywiście może być również uzależnione od . $\hat{S}_{j,q} = \prod_{i=1}^{q}{(1-h_{j,i})}$ $k$ $\mathbf{X}$
To subtelne pytanie, nie jestem pewien, czy mam odpowiedzi. Ale mam pytania. :) Wielkość próby w każdym okresie zmniejsza się z czasem z powodu właściwej cenzury i ze względu na wystąpienie zdarzenia: czy uwzględniłbyś to w swoim obliczeniu średniego czasu przeżycia? W jaki sposób? Co rozumiesz przez „populację”? Do jakiej populacji są uogólnione osoby rekrutowane do badania? Czy masz na myśli jakąś statystyczną koncepcję „super-populacji”? Wnioskowanie jest wielkim wyzwaniem w tych modelach, ponieważ szacujemy $\beta$ s oraz ich błędy standardowe, ale trzeba zrobić delta-metoda back-trzepie dostać błędy standardowe dla , oraz (z własnej pracy) wynikające ważnego standardu błędy dla $\hat{h}_{j,k}$ $\hat{S}_{j,k}$ działa tylko na papierze (nie mogę uzyskać poprawne relacje CI dla w modelach warunkowych). $\hat{S}_{j,k}$
Możesz użyć wykresów funkcji krokowych podobnych do Kaplana-Meiera, a także możesz użyć prostych wykresów liniowych (tj. Połączyć kropki między przedziałami czasu za pomocą linii). Powinieneś użyć tego drugiego przypadku tylko wtedy, gdy sama koncepcja „czasu dyskretnego” dopuszcza możliwość podzielenia okresów. Możesz także wykreślić / przekazać szacunki skumulowanej zachorowalności (która wynosi $1 - S_{j,k}$ ... przynajmniej epidemiologowie często definiują „skumulowaną zachorowalność” w ten sposób, termin ten jest różnie stosowany w konkurencyjnych modelach ryzyka. Pojęcie przyjmowania może również być użyte tutaj.).

— Alexis
źródło

Myślę, że w pytaniu 2 OP pyta o przewidywaną wartość z modelu logistycznego, a nie o oszacowanie współczynników regresji. Może to być istotne

— jujae

@jujae I wyraźnie dał funkcję logistyczną na moją odpowiedź na # 2, i skierował uwagę OP do korzystania z anty-logit przekształcić logitowe oszacowania parametrów do

, więc nie mam zrozumienia komentarz.

\hat{h} (t)

$\hat{h}(t)$

— Alexis

y_{p r e d} = \exp (β^{T} x) / (1 + \exp (β^{T} x))

$y_\mathrm{pred}= \exp(\beta^Tx)/(1+\exp(\beta^Tx))$

Wracając do pierwotnego pytania 2, PO zapytał: „Czy przewidywane wartości z oszacowań modelu regresji logistycznej funkcji hazardu?” Powiedziałbym tak (jeśli moje rozumienie przewidywanej wartości jest prawidłowe). I mówisz „nie” i argumentujesz, że oszacowane współczynniki nie są takie same jak oszacowanie zagrożenia. Zgadzam się z twoim oświadczeniem, są one poprawne, ale nie tego OP wymagało od mojego zrozumienia.

— jujae

k

$k$

{\hat{S}}_{j} (k)

$\hat{S}_j(k)$

S (k)

$S(k)$