Szacunek ML rozkładu wykładniczego (z cenzurowanymi danymi)

W analizie przeżycia zakładasz, że czas przeżycia rv jest rozkładany wykładniczo. Biorąc pod uwagę teraz, że mam „wyniki” iid rv . Tylko część tych wyników jest w rzeczywistości „w pełni zrealizowana”, tzn. Pozostałe obserwacje są nadal „żywe”. $X_i$ $x_1,\dots,x_n$ $X_i$

Jeśli chciałbym przeprowadzić oszacowanie ML dla parametru częstości rozkładu, jak mogę wykorzystać niezrealizowane obserwacje w spójny / odpowiedni sposób? Uważam, że nadal zawierają przydatne informacje do oszacowania. $\lambda$

Czy ktoś mógłby poprowadzić mnie do literatury na ten temat? Jestem pewien, że istnieje. Mam jednak problem ze znalezieniem dobrych słów kluczowych / wyszukiwanych haseł dla tego tematu.

— Dobry facet Mike
źródło

Mówisz więc, że spośród zmiennych losowych, których masz pomiar, powiedz, że obserwacji reprezentuje „sfinalizowane” długości życia (ponieważ powiązane zmienne losowe były „martwe” w czasie pomiaru), podczas gdy reszta obserwacje to długości przeżycia zmiennych losowych, które „żyły” w czasie pomiaru? ( )

n

$n$

n_{1} < n

$n_1 < n$

n_{2} < n

$n_2 <n$

n_{1} + n_{2} = n

$n_1+n_2 = n$

— Alecos Papadopoulos

jest to model okrojony, a „żywe” zmienne losowe są obcinane w momencie zatrzymania obserwacji.

— Xi'an

Sprawdź modele Tobita, aby uzyskać skrócone dane i powiązane źródła (np. Tutaj ).

— Richard Hardy

Wygląda na to, że masz cenzurowane dane, takie jak wcielenia, podczas których niektórzy ludzie zginęli, ale niektórzy nadal żyją, tak, że wiesz tylko, powiedzmy, dla niektórych znanych stałych .

x_{i} > t_{i}

$x_i > t_i$

t_{i}

$t_i$

— kjetil b halvorsen

Uważaj na czasami subtelną różnicę między tymi dwiema sytuacjami. Często zdarza się, że obcięcie jest mylone z cenzurą i odwrotnie.

— Alecos Papadopoulos

Nadal możesz oszacować parametry, korzystając bezpośrednio z prawdopodobieństwa. Niech obserwacje będą wynosić z rozkładem wykładniczym o współczynniku i nieznanym. Funkcja gęstości to , funkcja rozkładu skumulowanego i funkcja ogona . Załóżmy, że pierwsze obserwacje są w pełni obserwowane, podczas gdy dla wiemy tylko, że dla niektórych znanych stałych dodatnich $x_1, \dots, x_n$ $\lambda>0$ $f(x;\lambda)= \lambda e^{-\lambda x}$ $F(x;\lambda)=1-e^{-\lambda x}$ $G(x;\lambda)=1-F(x;\lambda) = e^{-\lambda x}$ $r$ $x_{r+1}, \dots, x_n$ $x_j > t_j$ $t_j$ . Jak zawsze, prawdopodobieństwem jest „prawdopodobieństwo zaobserwowanych danych” dla obserwacji cenzurowanych, podane przez , więc pełną funkcją prawdopodobieństwa jest Funkcja loglikelihood staje się wtedy który ma taką samą formę jak prawdopodobieństwo dla zwykłego, w pełni obserwowanego przypadku, z wyjątkiem pierwszego terminu w miejsce . Pisanie dla średniej obserwacji i czasów cenzurowania, estymator maksymalne prawdopodobieństwo staje $P(X_j > t_j) = G(t_j;\lambda)$

L (λ) = \prod_{i = 1}^{r} f (x_{i}; λ) \cdot \prod_{i = r + 1}^{n} G (t_{j}; λ)

$L(\lambda) = \prod_{i=1}^r f(x_i;\lambda) \cdot \prod_{i=r+1}^n G(t_j;\lambda)$

l (λ) = r \log λ - λ (x_{1} + \dots + x_{r} + t_{r + 1} + \dots + t_{n})

$l(\lambda) = r\log\lambda -\lambda(x_1+\dots+x_r+t_{r+1}+\dots+ t_n)$

r \log λ

$r\log\lambda$

n \log λ

$n\log\lambda$

T

$T$

λ

$\lambda$

\hat{λ} = \frac{r}{n T}

$\hat{\lambda}=\frac{r}{nT}$ , które sam możesz porównać z w pełni zaobserwowanym przypadkiem.

 EDIT

Aby spróbować odpowiedzieć na pytanie w komentarzach: Jeśli wszystkie obserwacje zostały ocenzurowane, to znaczy, nie czekaliśmy wystarczająco długo, aby zaobserwować jakieś zdarzenie (śmierć), co możemy zrobić? W takim przypadku , więc loglogelihood staje się co oznacza, że w maleje liniowo . Zatem maksimum musi wynosić dla ! Ale zero nie jest prawidłową wartością parametru szybkości ponieważ nie odpowiada żadnemu rozkładowi wykładniczemu. Musimy stwierdzić, że w tym przypadku nie istnieje oszacowanie maksymalnego prawdopodobieństwa! Być może można by spróbować zbudować pewien przedział ufności dla $r=0$

l (λ) = - n T λ

$l(\lambda) = -nT \lambda$

λ

$\lambda$

λ = 0

$\lambda=0$

λ

$\lambda$

λ

$\lambda$ w oparciu o tę funkcję wiarygodności? W tym celu spójrz poniżej.

Ale w każdym razie prawdziwy wniosek z danych w tym przypadku jest taki, że powinniśmy czekać więcej czasu, aż otrzymamy jakieś zdarzenia ...

Oto, w jaki sposób możemy skonstruować (jednostronny) przedział ufności dla na wypadek, gdyby wszystkie obserwacje zostały ocenzurowane. Funkcja prawdopodobieństwa w tym przypadku to , która ma taką samą formę jak funkcja prawdopodobieństwa z eksperymentu dwumianowego, w którym osiągnęliśmy wszystkie sukcesy, czyli (patrz także Przedział ufności wokół dwumianowego oszacowania 0 lub 1 ). W takim przypadku chcemy jednostronnego przedziału ufności dla w postaci . Następnie otrzymujemy przedział dla rozwiązując . $\lambda$ $e^{-\lambda n T}$ $p^n$ $p$ $[\underset{\bar{}}{p}, 1]$ $\lambda$ $\log p = -\lambda T$

Otrzymujemy przedział ufności dla , rozwiązując tak, że . Daje to ostatecznie przedział ufności dla : $p$

P (X = n) = p^{n} \geq 0.95 (say)

$P(X=n) = p^n \ge 0.95 ~~~~\text{(say)}$

n \log p \geq \log 0.95

$n\log p \ge \log 0.95$

λ

$\lambda$

λ \leq \frac{- \log 0.95}{n T} .

$\lambda \le \frac{-\log 0.95}{n T}.$

— kjetil b halvorsen
źródło

Czytając pytanie i odpowiedź, pomyślałem: „A jeśli wszystkie obserwacje są drugiego typu, dla których wiemy tylko, że i żadna obserwacja nie została w pełni zaobserwowana?” Naprawdę przydatne byłoby dołączenie tego przypadku również do twojej odpowiedzi, jako rozszerzenia.

x_{j} > t_{j}

$x_j > t_j$

— Alecos Papadopoulos