Dlaczego algorytm EM musi być iteracyjny?

Załóżmy, że masz populację $N$ jednostki, każda z losową zmienną $X_i \sim \text{Poisson}(\lambda)$ . Ty obserwujesz $n = N-n_0$ wartości dla dowolnej jednostki, dla której . Chcemy oszacowania . $X_i > 0$ $\lambda$

Istnieją metody chwil i warunkowe maksymalne prawdopodobieństwo uzyskania odpowiedzi, ale chciałem wypróbować algorytm EM. Otrzymuję algorytm EM: gdzie indeks dolny wskazuje wartość z poprzedniej iteracji algorytmu, a jest stały w odniesieniu do Parametry. (Właściwie uważam, że we frakcji w nawiasach powinno wynosić , ale to nie wydaje się dokładne; pytanie na inny raz).

Q (λ_{- 1}, λ) = λ (n + \frac{n}{exp (λ_{- 1}) - 1}) + \log (λ) \sum_{i = 1}^{n} x_{i} + K,

$Q\left(\lambda_{-1}, \lambda\right) = \lambda \left(n + \frac{n}{\text{exp}(\lambda_{-1}) - 1}\right) + \log(\lambda)\sum_{i=1}^n{x_i} + K,$

- 1

$-1$

K

$K$

n

$n$

n + 1

$n+1$

Aby uczynić to konkretnym, załóżmy, że , . Oczywiście, i nie są obserwowane i należy oszacować . $n=10$ $\sum{x_i} = 20$ $N$ $n_0$ $\lambda$

Gdy iteruję następującą funkcję, podając maksymalną wartość z poprzedniej iteracji, docieram do prawidłowej odpowiedzi (zweryfikowanej przez CML, MOM i prostą symulację):

EmFunc <- function(lambda, lambda0){
  -lambda * (10 + 10 / (exp(lambda0) - 1)) + 20 * log(lambda)
}

lambda0 <- 2
lambda  <- 1

while(abs(lambda - lambda0) > 0.0001){
  lambda0 <- lambda
  iter    <- optimize(EmFunc, lambda0 = lambda0, c(0,4), maximum = TRUE)
  lambda  <- iter$maximum
}

> iter
$maximum
[1] 1.593573

$objective
[1] -10.68045

Ale to jest prosty problem; zmaksymalizujmy bez iteracji:

MaxFunc <- function(lambda){
  -lambda * (10 + 10 / (exp(lambda) - 1)) + 20 * log(lambda)
}

optimize(MaxFunc, c(0,4), maximum = TRUE)
$maximum
[1] 2.393027

$objective
[1] -8.884968

Wartość funkcji jest wyższa niż w procedurze iteracyjnej, a wynik jest niezgodny z innymi metodologiami. Dlaczego druga procedura daje inną i (jak sądzę) nieprawidłową odpowiedź?

expectation-maximization

— Charlie
źródło

Kiedy znalazłeś swoją funkcję celu dla algorytmu EM, zakładam, że potraktowałeś liczbę jednostek , które nazywam , jako parametr utajony. W tym przypadku zakładam (ponownie), że reprezentuje zmniejszoną formę oczekiwanej wartości w stosunku do prawdopodobieństwa, które podano . To nie jest taki sam, jak pełna najprawdopodobniej z powodu , że jest treadted podane. $x_i=0$ $y$ $Q$ $y$ $\lambda_{-1}$ $\lambda_{-1}$

Dlatego nie możesz użyć dla pełnego prawdopodobieństwa, ponieważ nie zawiera ono informacji o tym, jak zmiana zmienia rozkład (i chcesz wybrać również najbardziej prawdopodobne wartości gdy zmaksymalizujesz pełne prawdopodobieństwo). Właśnie dlatego pełne maksymalne prawdopodobieństwo zerowego skróconego Poissona różni się od funkcji i dlatego otrzymujesz inną (i niepoprawną) odpowiedź, gdy maksymalizujesz . $Q$ $\lambda$ $y$ $y$ $Q$ $f(\lambda)=Q(\lambda,\lambda)$

Liczbowo, maksymalizacja z konieczności spowoduje, że funkcja celu będzie co najmniej tak duża, jak wynik EM, i prawdopodobnie większa, ponieważ nie ma gwarancji, że algorytm EM zbiegnie się do maksimum - powinien on tylko zbiegać się do maksimum funkcji wiarygodności ! $f(\lambda)$ $f$

— jayk
źródło