Jak utworzyć dane dotyczące przeżycia zabawki (czas do zdarzenia) z odpowiednią cenzurą


12

Chciałbym stworzyć dane dotyczące przeżycia zabawki (czas do zdarzenia), które są odpowiednio cenzurowane i podążają za pewnym rozkładem z proporcjonalnymi zagrożeniami i stałym ryzykiem podstawowym.

Utworzyłem dane w następujący sposób, ale nie jestem w stanie uzyskać szacunkowych współczynników ryzyka, które są zbliżone do prawdziwych wartości po dopasowaniu proporcjonalnego modelu zagrożeń Coxa do danych symulowanych.

Co zrobiłem źle?

Kody R:

library(survival)

#set parameters
set.seed(1234)

n = 40000 #sample size


#functional relationship

lambda=0.000020 #constant baseline hazard 2 per 100000 per 1 unit time

b_haz <-function(t) #baseline hazard
  {
    lambda #constant hazard wrt time 
  }

x = cbind(hba1c=rnorm(n,2,.5)-2,age=rnorm(n,40,5)-40,duration=rnorm(n,10,2)-10)

B = c(1.1,1.2,1.3) # hazard ratios (model coefficients)

hist(x %*% B) #distribution of scores

haz <-function(t) #hazard function
{
  b_haz(t) * exp(x %*% B)
}

c_hf <-function(t) #cumulative hazards function
{
  exp(x %*% B) * lambda * t 
}

S <- function(t) #survival function
{
  exp(-c_hf(t))
}

S(.005)
S(1)
S(5)

#simulate censoring

time = rnorm(n,10,2)

S_prob = S(time)

#simulate events

event = ifelse(runif(1)>S_prob,1,0)

#model fit

km = survfit(Surv(time,event)~1,data=data.frame(x))

plot(km) #kaplan-meier plot

#Cox PH model

fit = coxph(Surv(time,event)~ hba1c+age+duration, data=data.frame(x))

summary(fit)            

cox.zph(fit)

Wyniki:

Call:
coxph(formula = Surv(time, event) ~ hba1c + age + duration, data = data.frame(x))

  n= 40000, number of events= 3043 

             coef exp(coef) se(coef)     z Pr(>|z|)    
hba1c    0.236479  1.266780 0.035612  6.64 3.13e-11 ***
age      0.351304  1.420919 0.003792 92.63  < 2e-16 ***
duration 0.356629  1.428506 0.008952 39.84  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

         exp(coef) exp(-coef) lower .95 upper .95
hba1c        1.267     0.7894     1.181     1.358
age          1.421     0.7038     1.410     1.432
duration     1.429     0.7000     1.404     1.454

Concordance= 0.964  (se = 0.006 )
Rsquare= 0.239   (max possible= 0.767 )
Likelihood ratio test= 10926  on 3 df,   p=0
Wald test            = 10568  on 3 df,   p=0
Score (logrank) test = 11041  on 3 df,   p=0

ale prawdziwe wartości są ustawione jako

B = c(1.1,1.2,1.3) # hazard ratios (model coefficients)

1
Twoim zadaniem jest szybkie rozpoczęcie korzystania z istniejącego pakietu symulacyjnego: cran.r-project.org/web/packages/survsim/index.html
zhanxw

Odpowiedzi:


19

Nie jest dla mnie jasne, w jaki sposób generujesz czasy zdarzeń (które w twoim przypadku mogą wynosić ) i wskaźniki zdarzeń:<0

time = rnorm(n,10,2) 
S_prob = S(time)
event = ifelse(runif(1)>S_prob,1,0)

Oto ogólna metoda, po której następuje kod R.


Generowanie czasów przeżycia w celu symulacji modeli proporcjonalnych zagrożeń Coxa

Aby wygenerować czasy zdarzeń z modelu proporcjonalnego hazardu, możemy zastosować metodę odwrotnego prawdopodobieństwa (Bender i in., 2005) : jeśli jest jednolite dla a jeśli to warunkowa funkcja przeżycia wyprowadzona z proporcjonalnego modelu zagrożeń, tj. to faktem jest, że losowa zmienna ma funkcję przetrwania( 0 , 1 ) S ( V.(0,1)S ( tS.(|x) T = S - 1 ( V

S.(t|x)=exp(-H.0(t)exp(xβ)()
S(
T.=S.-1(V.|x)=H.0-1(-log(V.)exp(xβ))
S.(|x). Wynik ten jest znany jako `` odwrotna transformacja całkowa prawdopodobieństwa ''. Dlatego, aby wygenerować czas przeżycia podstawie wektora współzmiennego, wystarczy narysować z i aby wykonać odwrotną transformację .T.S.(|x)vV.U(0,1)t=S.-1(v|x)

Przykład [zagrożenie podstawowe Weibull]

Niech o kształcie i skali . Następnie i . Zgodnie z metodą odwrotnego prawdopodobieństwa realizacja jest uzyskiwana przez obliczenie z jednolita zmienna na . Korzystając z wyników transformacji zmiennych losowych, można zauważyć, że ma warunkowy rozkład Weibulla (biorąc pod uwagęh0(t)=λρtρ-1ρ>0λ>0H.0(t)=λtρH.0-1(t)=(tλ)1ρT.S.(|x)

t=(-log(v)λexp(xβ))1ρ
v(0,1)T.x) o kształcie i skali .ρλexp(xβ)

Kod R.

Poniższa funkcja R generuje zestaw danych z pojedynczą zmienną binarną (np. Wskaźnikiem leczenia). Zagrożenie podstawowe ma postać Weibulla. Czasy cenzury losowane są losowo z rozkładu wykładniczego.x

# baseline hazard: Weibull

# N = sample size    
# lambda = scale parameter in h0()
# rho = shape parameter in h0()
# beta = fixed effect parameter
# rateC = rate parameter of the exponential distribution of C

simulWeib <- function(N, lambda, rho, beta, rateC)
{
  # covariate --> N Bernoulli trials
  x <- sample(x=c(0, 1), size=N, replace=TRUE, prob=c(0.5, 0.5))

  # Weibull latent event times
  v <- runif(n=N)
  Tlat <- (- log(v) / (lambda * exp(x * beta)))^(1 / rho)

  # censoring times
  C <- rexp(n=N, rate=rateC)

  # follow-up times and event indicators
  time <- pmin(Tlat, C)
  status <- as.numeric(Tlat <= C)

  # data set
  data.frame(id=1:N,
             time=time,
             status=status,
             x=x)
}

Test

Oto krótka symulacja z :β=-0,6

set.seed(1234)
betaHat <- rep(NA, 1e3)
for(k in 1:1e3)
{
  dat <- simulWeib(N=100, lambda=0.01, rho=1, beta=-0.6, rateC=0.001)
  fit <- coxph(Surv(time, status) ~ x, data=dat)
  betaHat[k] <- fit$coef
}

> mean(betaHat)
[1] -0.6085473

Dziękuję za doskonałą odpowiedź. Uświadomiłem sobie, że zepsułem czasy zdarzeń, uzyskując status wydarzeń po losowym czasie wydarzeń, co nie miało sensu ... głupie mnie!
stats_newb

Czy mogę zapytać, czy istnieje jakiś konkretny powód, dla którego czerpiesz czas cenzury z rozkładu wykładniczego?
pthao

@pthao: nie ma żadnego konkretnego powodu (to była tylko ilustracja, w której użyłem rozkładu wykładniczego)
ocram

1
Czy istnieją jakieś wytyczne dotyczące wyboru rozkładu czasu cenzury?
pthao

@ocram Co ciekawe, kiedy uruchamiam flexsurvreg(Surv(time, status) ~ x, data=dat, dist = "weibull")te same symulowane dane, współczynnik pojawia się jako 0.6212. Dlaczego to?
ani-ani

3


mi-(λmi(xβ)t)ρ

(1/rho)

więc zmodyfikowałem w ten sposób

Tlat <- (- log(v))^(1 / rho) / (lambda * exp(x * beta))

jeśli rho = 1, wynik będzie taki sam.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.