Dlaczego MCMC jest potrzebne przy szacowaniu parametru za pomocą MAP?

Biorąc pod uwagę wzór na oszacowanie parametru MAP Dlaczego potrzebne jest podejście MCMC (lub podobne), czy nie mógłbym po prostu pobrać pochodnej, ustawić ją na zero, a następnie rozwiązać dla parametru?

bayesian estimation mcmc

— Dänu
źródło

Świetne pytanie!

Odpowiedzi:

Jeśli wiesz, z której rodziny pochodzi twój potomek i jeśli znalezienie pochodnej tego rozkładu jest analitycznie wykonalne, jest to poprawne.

Jednak podczas korzystania z MCMC prawdopodobnie nie znajdziesz się w takiej sytuacji. MCMC jest stworzony dla sytuacji, w których nie masz jasnego analitycznego wyobrażenia o tym, jak wygląda twój tył.

— Christoph Hanck
źródło

Myślę, że jest to nieco mylące: MCMC zazwyczaj nie jest używane do znajdowania estymatora MAP (poza specjalnymi przypadkami, takimi jak algorytm MCEM).

— Cliff AB

Zasadniczo nie zgadzam się z tobą. Ale MCMC może być i służy do symulacji rozkładu z tyłu . A kiedy już to zrobisz, możesz z pewnością znaleźć tryb tej dystrybucji, czyli MAPę. Uważam, że o to chodziło PO, więc nie jestem pewien, dlaczego moja odpowiedź byłaby myląca.

— Christoph Hanck

Tak, jednak czy MCMC jest metodą z wyboru w przypadku MAP, jeśli nie ma analitycznego sposobu optymalizacji parametru?

— Dänu

Nigdy nie słyszałem o użyciu prostego MCMC do znalezienia trybu dystrybucji tylnej (technicznie można to zrobić, ale jest to wyjątkowo nieefektywne). Ponieważ zazwyczaj możemy ocenić funkcję proporcjonalną do rozkładu tylnego, maksymalizacja tego będzie równoważna maksymalizacji rozkładu tylnego. Optymalizatory out-of-box będą działać tak samo dobrze, jak każdy problem dotyczący prawdopodobieństwa częstokroć (co oznacza, że czasami będziesz musiał je specjalizować).

— Cliff AB

@ Dänu Prawdopodobnie nie chcesz używać MCMC (być pedantycznym, łańcuchem Markowa), aby znaleźć maksima. Algorytm optymalizacji powinien działać lepiej.

— jtobin

Większość bocznych okazuje się trudna do analitycznej optymalizacji (tj. Biorąc gradient i ustawiając go na zero), a do wykonania MAP konieczne będzie skorzystanie z algorytmu numerycznej optymalizacji.

Nawiasem mówiąc: MCMC nie jest związany z MAP.

MAP - dla maksimum a posteriori - odnosi się do znalezienia lokalnego maksimum czegoś proporcjonalnego do gęstości a posteriori i wykorzystania odpowiednich wartości parametrów jako oszacowań. Jest zdefiniowany jako

{\hat{θ}}_{M A P} = {argmax}_{θ} p (θ | D)

$\hat{\theta}_{MAP} = \text{argmax}_{\theta} \, p(\theta \, | \, D)$

MCMC jest zwykle używane do przybliżania oczekiwań w stosunku do czegoś proporcjonalnego do gęstości prawdopodobieństwa. W przypadku a posteriori tak jest

{\hat{θ}}_{M C M C} = n^{- 1} \sum_{i = 1}^{n} θ_{i}^{0} \approx \int_{Θ} θ p (θ | D) d θ

$\hat{\theta}_{MCMC} = n^{-1} \sum_{i=1}^{n} \theta^{0}_{i} \approx \int_{\Theta}\theta \, p(\theta \, | \, D)d\theta$

gdzie to zbiór pozycji przestrzeni parametrów odwiedzanych przez odpowiedni łańcuch Markowa. Ogólnie rzecz biorąc, w jakimkolwiek sensownym znaczeniu. $\{\theta^{0}_{i}\}^{n}_{i=1}$ $\hat{\theta}_{MAP} \neq \hat{\theta}_{MCMC}$

Najważniejsze jest to, że MAP wymaga optymalizacji , podczas gdy MCMC opiera się na próbkowaniu .

— jtobin
źródło

Stwierdzasz, że tylna część ciała jest trudna do analitycznej optymalizacji, jak ma to miejsce w przypadku MAP. Czy więc MAP jest możliwy tylko wtedy, gdy tylną część można zoptymalizować analitycznie i jeśli tak nie jest, należy zastosować (na przykład) podejście MCMC?

— Dänu

Nie, zamiast przychodzić z rozwiązaniem analitycznym, można użyć algorytmu iteracyjnego, aby wymyślić rozwiązanie (tj. Jeśli dziennik tylny jest wklęsły, możesz na przykład zastosować metodę Newtona).

— Cliff AB

MAP odnosi się do znalezienia wartości parametrów, które (lokalnie) maksymalizują a posterior. Nie ma znaczenia, w jaki sposób otrzymuje się te wartości parametrów: analityczne rozwiązywanie maksimów, stosowanie procedury numerycznej, automatyczne różnicowanie itp.

— jtobin