Obecnie uczę się hierarchicznych modeli bayesowskich przy użyciu JAGS z R, a także pymc przy użyciu Pythona ( „Bayesian Methods for Hackers” ).
Mogę uzyskać intuicję z tego postu : „skończysz ze stosem liczb, które wyglądają” tak, jakby „udało ci się w jakiś sposób pobrać niezależne próbki ze skomplikowanej dystrybucji, o której chciałeś wiedzieć”. To coś, co mogę podać warunkowe prawdopodobieństwo, a następnie mogę wygenerować proces bez pamięci na podstawie prawdopodobieństwa warunkowego. Kiedy generuję proces wystarczająco długo, prawdopodobieństwo połączenia może się zbiegać. A następnie mogę wziąć stos liczb na końcu wygenerowanej sekwencji. To tak, jakbym pobierał niezależne próbki ze skomplikowanego podziału stawów. Na przykład mogę wykonać histogram, który przybliża funkcję rozkładu.
Zatem moim problemem jest to, czy muszę udowodnić, czy MCMC jest zbieżny dla określonego modelu? Jestem zmotywowany, aby to wiedzieć, ponieważ wcześniej nauczyłem się algorytmu EM dla GMM i LDA (modele graficzne). Jeśli mogę po prostu użyć algorytmu MCMC bez udowodnienia, czy jest zbieżny, to może zaoszczędzić znacznie więcej czasu niż EM. Ponieważ będę musiał obliczyć oczekiwaną funkcję prawdopodobieństwa logarytmicznego (będę musiał obliczyć prawdopodobieństwo późniejsze), a następnie zmaksymalizować oczekiwane prawdopodobieństwo logarytmiczne. Jest to najwyraźniej bardziej kłopotliwe niż MCMC (muszę tylko sformułować prawdopodobieństwo warunkowe).
Zastanawiam się również, czy funkcja prawdopodobieństwa i wcześniejsza dystrybucja są sprzężone. Czy to oznacza, że MCMC musi się zbiegać? Zastanawiam się nad ograniczeniami MCMC i EM.