Próbuję zrozumieć wewnętrzne działanie Hamiltona Monte Carlo (HMC), ale nie mogę w pełni zrozumieć tej części, kiedy zastępujemy deterministyczną integrację czasową propozycją Metropolis-Hasting. Czytam niesamowity wstępny artykuł „Koncepcyjne wprowadzenie do Hamiltonian Monte Carlo” autorstwa Michaela Betancourta, więc będę postępować zgodnie z tą samą notacją, która została w nim zastosowana.
tło
Ogólnym celem Markov Chain Monte Carlo (MCMC) jest przybliżenie rozkładu zmiennej docelowej .
Ideą HMC jest wprowadzenie pomocniczej zmiennej „pędu” , w połączeniu z oryginalną zmienną który jest modelowany jako „pozycja”. Para pozycja-pęd tworzy rozszerzoną przestrzeń fazową i może być opisana dynamiką hamiltonowską. Wspólna dystrybucja można napisać w kategoriach rozkładu mikrokanonicznego:
,
gdzie reprezentuje parametry na danym poziomie energii , znany również jako typowy zestaw . Ilustrację przedstawiono na ryc. 21 i ryc. 22 artykułu.
Oryginalna procedura konsoli HMC składa się z następujących dwóch naprzemiennych etapów:
Stochastyczny krok, który wykonuje losowe przejście między poziomami energii i
Krok deterministyczny, który wykonuje całkowanie w czasie (zwykle realizowane przez skokową integrację numeryczną) wzdłuż danego poziomu energii.
W artykule dowodzi się, że skok żaba (lub integrator symplektyczny) ma małe błędy, które wprowadzą błąd numeryczny. Zamiast traktować go jako krok deterministyczny, powinniśmy przekształcić go w propozycję Metropolis-Hasting (MH), aby ten krok był stochastyczny, a wynikowa procedura da dokładne próbki z rozkładu.
Propozycja MH zostanie wykonana kroki operacji przeskakiwania, a następnie odwrócenie tempa. Propozycja zostanie następnie zaakceptowana z następującym prawdopodobieństwem akceptacji:
pytania
Moje pytania to:
1) Dlaczego ta modyfikacja przekształcenia deterministycznej integracji czasowej w propozycję MH anuluje odchylenie liczbowe, aby wygenerowane próbki były dokładnie zgodne z rozkładem docelowym?
2) Z punktu widzenia fizyki energia jest zachowywana na danym poziomie energii. Właśnie dlatego możemy zastosować równania Hamiltona:
.
W tym sensie energia powinna być stała wszędzie na typowym zbiorze, stąd powinno być równe . Dlaczego istnieje różnica w energii, która pozwala nam skonstruować prawdopodobieństwo akceptacji?