Integracja Metropolis-Hastings - dlaczego moja strategia nie działa?

Załóżmy, że mam funkcję , którą chcę zintegrować Oczywiście przy założeniu, że osiąga zero w punktach końcowych, brak wybuchów, fajna funkcja. Jednym ze sposobów, w jakie się bawiłem, jest użycie algorytmu Metropolis-Hastings do wygenerowania listy próbek z rozkładu proporcjonalnego do , w którym brakuje stałej normalizacyjnej który , a następnie obliczenia niektórych statystyk na tych : $g(x)$

\int_{- \infty}^{\infty} g (x) d x .

$\int_{-\infty}^\infty g(x) dx.$

g (x)

$g(x)$

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \dots, x_n$

g (x)

$g(x)$

N = \int_{- \infty}^{\infty} g (x) d x

$N = \int_{-\infty}^{\infty} g(x)dx$

p (x)

$p(x)$

f (x)

$f(x)$

x

$x$

\frac{1}{n} \sum_{i = 0}^{n} f (x_{i}) \approx \int_{- \infty}^{\infty} f (x) p (x) d x .

$\frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx.$

Ponieważ , mogę podstawić aby anulować z całki, co powoduje wyrażenie postaci Więc pod warunkiem, że integruje się z wzdłuż tego regionu, powinienem uzyskać wynik , który mógłbym wziąć na zasadzie wzajemności, aby uzyskać odpowiedź, której chcę. Dlatego mógłbym wziąć zakres mojej próbki (aby najskuteczniej wykorzystać punkty) i pozwolić dla każdej narysowanej próbki. W ten sposób $p(x) = g(x)/N$ $f(x) = U(x)/g(x)$ $g$

\frac{1}{N} \int_{- \infty}^{\infty} \frac{U (x)}{g (x)} g (x) d x = \frac{1}{N} \int_{- \infty}^{\infty} U (x) d x .

$\frac{1}{N}\int_{-\infty}^{\infty}\frac{U(x)}{g(x)} g(x) dx = \frac{1}{N}\int_{-\infty}^\infty U(x) dx.$

U (x)

$U(x)$

1

$1$

1 / N

$1/N$

r = x_{max} - x_{min}

$r = x_\max - x_\min$

U (x) = 1 / r

$U(x) = 1/r$

U (x)

$U(x)$ ocenia na zero poza regionem, w którym nie ma moich próbek, ale integruje się z

1

$1$ w tym regionie. Więc jeśli teraz przyjmuję oczekiwaną wartość, powinienem otrzymać:

E [\frac{U (x)}{g (x)}] = \frac{1}{N} \approx \frac{1}{n} \sum_{i = 0}^{n} \frac{U (x)}{g (x)} .

$E\left [\frac{U(x)}{g(x)}\right ] = \frac{1}{N} \approx \frac{1}{n} \sum_{i=0}^n \frac{U(x)}{g(x)}.$

Próbowałem to przetestować w R dla przykładowej funkcji $g(x) = e^{-x^2}$ . W tym przypadku nie używam Metropolis-Hastings do generowania próbek, ale używam rzeczywistych prawdopodobieństw rnormdo generowania próbek (tylko do testowania). Nie do końca otrzymuję wyniki, których szukam. Zasadniczo pełne wyrażenie tego, co bym obliczał, to:

\frac{1}{n (x_{max} - x_{min})} \sum_{i = 0}^{n} \frac{1}{e^{- x_{i}^{2}}} .

$\frac{1}{n(x_{\max} - x_\min)} \sum_{i=0}^n \frac{1}{ e^{-x_i^2}}.$ To powinno w mojej teorii oceniać na

1 / \sqrt{π}

$1/\sqrt{\pi}$ . Zbliża się, ale na pewno nie zbiega się w oczekiwany sposób, czy robię coś złego?

ys = rnorm(1000000, 0, 1/sqrt(2))
r = max(ys) - min(ys)
sum(sapply(ys, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.6019741. 1/sqrt(pi) = 0.5641896

Edycja dla CliffAB

Powodem, dla którego używam zakresu jest po prostu łatwe zdefiniowanie funkcji, która nie jest zerowa w regionie, w którym znajdują się moje punkty, ale która integruje się z w zakresie . Pełna specyfikacja funkcji jest następująca: Nie musiałem używać jako tej jednolitej gęstości. Mógłbym użyć innej gęstości zintegrowanej z , na przykład gęstości prawdopodobieństwa Sprawiłoby to jednak, że sumowanie poszczególnych próbek byłoby banalne, tzn $1$ $[-\infty, \infty]$

U (x) = {\begin{cases} \frac{1}{x_{max} - x_{min}} & x_{max} > x > x_{min} \\ 0 & otherwise. \end{cases}

$U(x) = \begin{cases} \frac{1}{x_\max - x_\min} & x_\max > x > x_\min \\ 0 & \text{otherwise.} \end{cases}$

U (x)

$U(x)$

1

$1$

P (x) = \frac{1}{\sqrt{π}} e^{- x^{2}} .

$P(x) = \frac{1}{\sqrt{\pi}} e^{-x^2}.$

\frac{1}{n} \sum_{i = 0}^{n} \frac{P (x)}{g (x)} = \frac{1}{n} \sum_{i = 0}^{n} \frac{e^{- x_{i}^{2}} / \sqrt{π}}{e^{- x_{i}^{2}}} = \frac{1}{n} \sum_{i = 0}^{n} \frac{1}{\sqrt{π}} = \frac{1}{\sqrt{π}} .

$\frac{1}{n} \sum_{i=0}^n \frac{P(x)}{g(x)} = \frac{1}{n} \sum_{i=0}^n \frac{e^{-x_i^2}/\sqrt{\pi}}{e^{-x_i^2} } = \frac{1}{n} \sum_{i=0}^n \frac{1}{\sqrt{\pi}} = \frac{1}{\sqrt{\pi}}.$

Mógłbym wypróbować tę technikę dla innych dystrybucji, które integrują się z . Chciałbym jednak nadal wiedzieć, dlaczego nie działa w przypadku równomiernej dystrybucji. $1$

— Mike Flynn
źródło

Szybko się nad tym zastanawiam, więc nie jestem pewien, dlaczego zdecydowałeś się użyć range (x). Pod warunkiem, że jest ważny, jest wyjątkowo nieefektywny! Zakres próbki tego rozmiaru jest prawie najbardziej niestabilną statystyką, jaką możesz wziąć.

— Cliff AB

@CliffAB Nie ma nic szczególnego w tym, że korzystam z zakresu, poza zdefiniowaniem równomiernego rozkładu przedziału, w którym leżą moje punkty. Zobacz zmiany.

— Mike Flynn

Przyjrzę się temu później bardziej szczegółowo. Ale należy wziąć pod uwagę, że tak jakby x był zbiorem jednolitych RV, a następnie jako , range . Ale jeśli x jest zbiorem niedenegenerowanych normalnych RV, to jako , .

n \to \infty

$n \rightarrow \infty$

(x) \to 1

$(x) \rightarrow 1$

n \to \infty

$n \rightarrow \infty$

range (x) \to \infty

$\text{range}(x) \rightarrow \infty$

— Cliff AB

@CliffAB mogłeś mieć rację, myślę, że powodem było to, że granice całki nie zostały ustalone, więc wariancja estymatora nigdy się nie zbiegnie ...

— Mike Flynn

Jest to najciekawsze pytanie, które dotyczy zagadnienia przybliżenia stałej normalizującej gęstości na podstawie wyjścia MCMC z tej samej gęstości . (Uwaga boczna jest taka, że poprawnym założeniem jest to, że jest liczbą całkowitą, zejście do zera w nieskończoności nie jest wystarczające.) $g$ $g$ $g$

Moim zdaniem najbardziej odpowiedni wpis na ten temat w odniesieniu do twojej sugestii to artykuł Gelfanda i Deya (1994, JRSS B ), w którym autorzy opracowali bardzo podobne podejście do znalezienia przy generowaniu z . Jednym z rezultatów tego artykułu jest to, że dla dowolnej gęstości prawdopodobieństwa [jest to równoważne twojej ], tak że następująca tożsamość pokazuje, że próbka z może wytworzyć

\int_{X} g (x) d x

$\int_\mathcal{X} g(x) \,\text{d}x$

p (x) \propto g (x)

$p(x)\propto g(x)$

α (x)

$\alpha(x)$

U (x)

$U(x)$

{x; α (x) > 0} \subset {x; g (x) > 0}

$\{x;\alpha(x)>0\}\subset\{x;g(x)>0\}$

\int_{X} \frac{α (x)}{g (x)} p (x) d x = \int_{X} \frac{α (x)}{N} d x = \frac{1}{N}

$\int_\mathcal{X} \dfrac{\alpha(x)}{g(x)}p(x) \,\text{d}x=\int_\mathcal{X} \dfrac{\alpha(x)}{N} \,\text{d}x=\dfrac{1}{N}$

p

$p$ nieobciążony oceny od estymatora próbkowania znaczenie Oczywiście wydajność (szybkość zbieżności, istnienie wariancji i tc.) estymatora zależy od wyboru [ nawet jeśli jego oczekiwania nie]. W ramach bayesowskich opcją zalecaną przez Gelfanda i Deya jest przyjęcie , poprzedniej gęstości. Prowadzi to do gdzie jest funkcją prawdopodobieństwa, ponieważ

1 / N

$1/N$

\hat{η} = \frac{1}{n} \sum_{i = 1}^{n} \frac{α (x_{i})}{g (x_{i})} x_{i} \overset{iid}{\sim} p (x)

$\hat\eta=\frac{1}{n}\sum_{i=1}^n \dfrac{\alpha(x_i)}{g(x_i)}\qquad x_i\stackrel{\text{iid}}{\sim}p(x)$

\hat{η}

$\hat\eta$

α

$\alpha$

α = π

$\alpha=\pi$

\frac{α (x)}{g (x)} = \frac{1}{ℓ (x)}

$\dfrac{\alpha(x)}{g(x)} = \dfrac{1}{\ell(x)}$

ℓ (x)

$\ell(x)$

g (x) = π (x) ℓ (x)

$g(x)=\pi(x)\ell(x)$ . Niestety, uzyskany estymator jest średnią harmoniczną estymator , zwany również najgorszym Monte Carlo estymator nigdy przez Radford Neal, z University of Toronto. Więc nie zawsze działa to dobrze. Lub nawet prawie nigdy.

\hat{N} = \frac{n}{\sum_{i = 1}^{n} 1 / ℓ (x_{i})}

$\hat{N}=\dfrac{n}{\sum_{i=1}^n1\big/\ell(x_i)}$

Twój pomysł użycia zakresu próbki i jednolitości w tym zakresie jest związany ze średnią średnią harmoniczną: estymator nie ma wariancji choćby dlatego, że z powodu pojawiający się w liczniku (podejrzewam, że zawsze może tak być w przypadku nieograniczonego wsparcia!), a zatem bardzo powoli zbliża się do stałej normalizującej. Na przykład, jeśli ponownie uruchomisz kod kilka razy, otrzymasz bardzo różne wartości liczbowe po 10 different iteracjach. Oznacza to, że nie możesz nawet ufać wielkości odpowiedzi. $(\min(x_i),\max(x_i))$ $\exp\{x^2\}$

Ogólną poprawką tego nieskończonego problemu wariancji jest użycie dla bardziej skoncentrowanej gęstości, przy użyciu na przykład kwartyli z próbki , ponieważ następnie pozostaje niższy w tym przedziale. $\alpha$ $(q_{.25}(x_i),q_{.75}(x_i))$ $g$

Podczas dostosowywania kodu do tej nowej gęstości przybliżenie jest znacznie bliższe : $1/\sqrt{\pi}$

ys = rnorm(1e6, 0, 1/sqrt(2))
r = quantile(ys,.75) - quantile(ys,.25)
yc=ys[(ys>quantile(ys,.25))&(ys<quantile(ys,.75))]
sum(sapply(yc, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.5649015. 1/sqrt(pi) = 0.5641896

Omawiamy tę metodę szczegółowo w dwóch artykułach z Darrenem Wraithem i Jean-Michelem Marinem .

— Xi'an
źródło