Algorytm EM Praktyka Problem

Jest to problem praktyczny podczas egzaminu śródokresowego. Problemem jest przykład algorytmu EM. Mam problem z częścią (f). Podaję części (a) - (e) do uzupełnienia i na wypadek, gdyby wcześniej popełniłem błąd.

Niech będą niezależnymi wykładniczymi zmiennymi losowymi o współczynniku . Niestety rzeczywiste wartości nie są przestrzegane i obserwujemy tylko, czy wartości mieszczą się w określonych przedziałach. Niech , i dla . Obserwowane dane obejmują . $X_1,\ldots,X_n$ $\theta$ $X$ $X$ $G_{1j} = \mathbb{1}\left\{X_j < 1\right\}$ $G_{2j} = \mathbb{1}\left\{1< X_j<2\right\}$ $G_{3j} = \mathbb{1}\left\{X_j > 2\right\}$ $j=1,\ldots,n$ $(G_{1j},G_{2j},G_{3j})$

(a) Podać zaobserwowane prawdopodobieństwo danych:

$\begin{align*} L(\theta | G) &= \prod_{j=1}^n \text{Pr}\left\{X_j < 1\right\}^{G_{1j}}\text{Pr}\left\{1<X_j<2 \right\}^{G_{2j}}\text{Pr}\left\{X_j >2\right\}^{G_{3j}}\\ &= \prod_{j=1}^n \left(1-e^{-\theta}\right)^{G_{1j}}\left(e^{-\theta}-e^{-2\theta}\right)^{G_{2j}}\left(e^{-2\theta}\right)^{G_{3j}} \end{align*}$

(b) Podaj pełne prawdopodobieństwo danych

$\begin{align*} L(\theta | X,G) &= \prod_{j=1}^n \left(\theta e^{-\theta x_j}\right)^{G_{1j}}\left(\theta e^{-\theta x_j}\right)^{G_{2j}}\left(\theta e^{-\theta x_j}\right)^{G_{3j}} \end{align*}$

$\begin{align*} f(x_j|G,\theta) &= \dfrac{f_{X,G}(x_j, g)}{f_G(g)}\\ &= \dfrac{ \theta e^{-\theta x_j}\mathbb{1}\left\{x_j \in \text{region r s.t. } G_{rj}=1\right\}}{\left(1-e^{-\theta}\right)^{g_{1j}}\left(e^{-\theta}-e^{-2\theta}\right)^{g_{2j}}\left(e^{-2\theta}\right)^{g_{3j}}} \end{align*}$

(d) E-krok. Podaj funkcję $Q(\theta,\theta^i)$

$\begin{align*} Q(\theta,\theta^i) &= \text{E}_{X|G,\theta^i}\left[ \log{f(\mathbf{x}|G,\theta)}\right]\\ &= n\log{\theta} - \theta\sum_{j=1}^n\text{E}\left[X_j|G,\theta^i\right] - N_1\log{(1-e^{-\theta})} - N_2\log{(e^{-\theta}-e^{-2\theta})} - N_3\log{e^{-2\theta}}\\ &= n\log{\theta} - \theta\sum_{j=1}^n\text{E}\left[X_j|G,\theta^i\right] - N_1\log{(1-e^{-\theta})} - N_2\log{(e^{-\theta}(1-e^{-\theta}))} + 2\theta N_3\\ &= n\log{\theta} - \theta\sum_{j=1}^n\text{E}\left[X_j|G,\theta^i\right] - N_1\log{(1-e^{-\theta})} + \theta N_2 -N_2\log{(1-e^{-\theta})} + 2\theta N_3 \end{align*}$

gdzie $N_1=\sum_{j=1}^n g_{1j}, N_2=\sum_{j=1}^n g_{2j}, N_3=\sum_{j=1}^n g_{3j}$

(e) Podaj wyrażenia dla dla . $\text{E}\left[X_j|G_{rj}=1,\theta^i\right]$ $r=1,2,3$

Wymienię moje wyniki, które jestem pewien, że są słuszne, ale pochodne byłyby nieco długie dla tego i tak długiego pytania:

$\begin{align*} \text{E}\left[X_j|G_{1j}=1,\theta^i\right] &= \left(\dfrac{1}{1-e^{-\theta^i}}\right)\left(\dfrac{1}{\theta^i}-e^{-\theta^i}(1+1/\theta^i)\right)\\ \text{E}\left[X_j|G_{2j}=1,\theta^i\right] &= \left(\dfrac{1}{e^{-\theta^i}-e^{-2\theta^i}}\right)\left(e^{-\theta^i}(1+1/\theta^i)-e^{-2\theta^i}(2+1/\theta^i)\right)\\ \text{E}\left[X_j|G_{3j}=1,\theta^i\right] &= \left(\dfrac{1}{e^{-2\theta^i}}\right)\left(e^{-2\theta^i}(2+1/\theta^i)\right) \end{align*}$

Oto część, na której utknąłem i może to wynikać z wcześniejszego błędu:

(f) M-Step. Znajdź która maksymalizuje $\theta$ $Q(\theta,\theta^i)$

Zgodnie z prawem całkowitego oczekiwania mamy Przeto $\begin{align*} \text{E}\left[X_j|G,\theta^i\right] &= \left(\dfrac{1}{\theta^i}-e^{-\theta^i}(1+1/\theta^i)\right) + \left(e^{-\theta^i}(1+1/\theta^i)-e^{-2\theta^i}(2+1/\theta^i)\right) + \left(e^{-2\theta^i}(2+1/\theta^i)\right)\\ &= 1/\theta^i \end{align*}$

$\begin{align*} Q(\theta,\theta^i) &= n\log{\theta} - \theta\sum_{j=1}^n\text{E}\left[X_j|G,\theta^i\right] - N_1\log{(1-e^{-\theta})} + \theta N_2 -N_2\log{(1-e^{-\theta})} + 2\theta N_3\\ &= n\log{\theta} - \theta\dfrac{n}{\theta^i} - N_1\log{(1-e^{-\theta})} + \theta N_2 -N_2\log{(1-e^{-\theta})} + 2\theta N_3\\ \dfrac{\partial Q(\theta,\theta^i)}{\partial \theta} &= \dfrac{n}{\theta} - \dfrac{n}{\theta^i} - \dfrac{(N_1+N_2)e^{-\theta}}{1-e^{-\theta}} + N_2+2N_3 \end{align*}$

Następnie powinienem ustawić tę wartość na zero i rozwiązać dla , ale próbowałem tego przez bardzo długi czas i wydaje się, że nie mogę rozwiązać dla ! $\theta$ $\theta$

— bdeonovic
źródło

Przez minutę interpretowałem jako moc . Najbardziej mylące. Zwykle numer iteracji (numer kroku) umieszczany jest w nawiasach lub w nawiasach , aby nie był mylony z -tą potęgą . Prawdopodobnie najlepiej przynajmniej powiedzieć, że o to właśnie chodzi (zakładając, że mam rację).

θ^{i}

$\theta^i$

θ

$\theta$

[i]

$[i]$

(i)

$(i)$

θ^{(i)}

$\theta^{(i)}$

i

$i$

θ^{i}

$\theta^{i}$

— Glen_b

Tak Glen, przepraszam, to rzeczywiście th iteracji algorytmu EM.

i

$i$

— bdeonovic

Pełne prawdopodobieństwo danych nie powinno obejmować G! Powinno być po prostu prawdopodobieństwo gdy są wykładnicze. Zauważ, że pełne prawdopodobieństwo danych w takim stanie, w jakim je zapisałeś, upraszcza się do prawdopodobieństwa wykładniczego, ponieważ tylko jeden z może wynosić 1. Pozostawienie na pełnym prawdopodobieństwie danych, jednak, zadziwia cię później. $\theta$ $X$ $G_{rj}$ $G$

W części d) należy przyjąć oczekiwanie pełnego prawdopodobieństwa dziennika danych, a nie obserwowanego prawdopodobieństwa dziennika danych.

Nie powinieneś także stosować prawa całkowitego oczekiwania! Pamiętaj, że G jest obserwowane i nie jest losowe, dlatego powinieneś wykonywać tylko jedną z tych warunkowych oczekiwań dla każdego . Po prostu zastąp to warunkowe oczekiwanie terminem a następnie wykonaj krok M. $X_j$ $X_j^{(i)}$

— jsk
źródło

@Benjamin Jak nadchodzi problem? Czy mogłem pomóc ci zrozumieć, jak to zrobić?

— jsk

Dzięki za komentarze @jsk. Byłem zmęczony ostatniej nocy, więc

— położyłem

Myślę, że to rozgryzłem! Jeszcze raz dziękuję! To było właśnie w przygotowaniu do finału, który mam dzisiaj, więc naprawdę pomogło wyjaśnić kilka rzeczy na temat EM.

— bdeonovic

Nie ma za co. Mam nadzieję, że Twój finał dobrze się dziś skończy!

— jsk

Na podstawie komentarzy @ jsk postaram się naprawić moje błędy:

$\begin{align*} L(\theta|X,G) &= \prod_{j=1}^n \theta e^{-\theta x_j} \end{align*}$

$\begin{align*} Q(\theta,\theta^i) &= n\log{\theta} - \theta\sum_{j=1}^n \text{E}\left[X_j|G,\theta^i\right]\\ &= n\log{\theta} - \theta\left(\dfrac{\sum_{j=1}^n g_{1j}}{1-e^{-\theta^i}}\right)\left(\dfrac{1}{\theta^i} - e^{-\theta^i}(1+1/\theta^i)\right) - \theta\left(\dfrac{\sum_{j=1}^n g_{2j}}{e^{-\theta^i}(1-e^{-\theta^i})}\right)\left(e^{-\theta^i}(1+1/\theta^i)-e^{-2\theta^i}(2+1/\theta^i)\right) - \theta\left(\dfrac{\sum_{j=1}^n g_{3j}}{e^{-2\theta^i}}\right)\left(e^{-2\theta^i}(2+1/\theta^i)\right)\\ &= n\log{\theta} - \theta N_1 A - \theta N_2 B - \theta N_3 C\\ \dfrac{\partial Q(\theta,\theta^i)}{\partial \theta} &= \dfrac{n}{\theta} - N_1A-N_2B - N_3C \overset{set}{=}0 \end{align*}$

rozwiązując dla otrzymujemy $\theta$ $\theta^{(i+1)} = \dfrac{n}{N_1A+N_2B+N_3C}$

— bdeonovic
źródło