Wariacyjne Bayes w połączeniu z Monte Carlo

Czytam o wariacyjnych Bayesach i, jak rozumiem, sprowadza się to do pomysłu, który przybliżasz $p(z\mid x)$ (gdzie $z$ są ukrytymi zmiennymi twojego modelu i $x$ dane obserwowane) z funkcją $q(z)$ , przyjmując, że $q$ faktoryzuje jako $q_i(z_i)$ gdzie $z_i$ jest podzbiorem ukrytych zmiennych. Następnie można wykazać, że współczynnik optymalny $q_i(z_i)$ jest:

q_{i}^{*} (z_{i}) = ⟨ \ln p (x, z) ⟩_{z / i} + const.

$q^*_i(z_i) = \langle \ln p(x, z)\rangle_{z/i} + \text{const.}$

Gdzie nawiasy kątowe oznaczają oczekiwanie względem wszystkich ukrytych zmiennych, z wyjątkiem $z_i$ w odniesieniu do dystrybucji $q(z)$ .

Teraz to wyrażenie jest zwykle oceniane analitycznie, aby dać dokładną odpowiedź na przybliżoną wartość docelową. Przyszło mi jednak do głowy, że skoro jest to oczekiwanie, oczywistym podejściem jest przybliżenie tego oczekiwania poprzez próbkowanie. Dałoby to przybliżoną odpowiedź na przybliżoną funkcję docelową, ale stanowi bardzo prosty algorytm, być może w przypadkach, w których podejście analityczne nie jest wykonalne.

Moje pytanie brzmi: czy jest to znane podejście ? Czy to ma imię? Czy istnieją powody, dla których może nie działać tak dobrze lub może nie dać tak prostego algorytmu?

variational-bayes

— Piotr
źródło

Myślę, że większym problemem będzie zaniżenie niepewności, które zwykle powodują przybliżenia VB.

— probabilityislogic

Przyznaję, że to nie jest domena, którą znam bardzo dobrze, więc weź to z odrobiną soli.

Przede wszystkim zauważ, że to, co proponujesz, nie daje tak prostego algorytmu: w celu obliczenia nowego $q^\star_i$ , nie musimy obliczać pojedynczej oczekiwanej wartości (np. średniej lub wariancji), ale oczekiwaną wartość całej funkcji. Jest to trudne obliczeniowo i wymaga przybliżenia prawdy $q^\star$ przez kogoś $\tilde q$ (na przykład możemy znaleźć przybliżenie histogramu)

Ale jeśli zamierzasz ograniczyć $q_i$ dla małej rodziny parametrycznej lepszym pomysłem może być użycie gradientu stochastycznego w celu znalezienia najlepszych wartości parametrów (patrz: Wnioskowanie bayesowskie wariacyjne z wyszukiwaniem stochastycznym, 2012, Paisley, Blei, Jordan). Obliczany przez nich gradient jest bardzo podobny do tego, co napisałeś: próbkuje ze wszystkich przybliżeń, których obecnie nie optymalizuje.

Więc to, co proponujesz, nie jest takie proste, ale jest dość zbliżone do rzeczywistej metody, która została zaproponowana bardzo niedawno

— Guillaume Dehaene
źródło