„Zapomnienie” o przeorze w środowisku bayesowskim?

Jest dobrze wiadomo, że jak masz więcej dowodów (powiedzmy w postaci większej dla IID przykładach), Bayesa przed dostaje „zapomniał”, a większość wnioskowania jest wpływ dowodów (lub prawdopodobieństwa). $n$ $n$

Łatwo jest to zobaczyć w różnych konkretnych przypadkach (takich jak Bernoulli z wcześniejszą wersją Beta lub innymi typami przykładów) - ale istnieje sposób, aby zobaczyć to w ogólnym przypadku z i niektóre wcześniejsze ? $x_1,\ldots,x_n \sim p(x|\mu)$ $p(\mu)$

EDYCJA: Zgaduję, że nie można tego pokazać w ogólnym przypadku dla żadnego przeora (na przykład, przeor masy punktowej zachowałby tylną masę punktową). Ale być może istnieją pewne warunki, w których zapomina się o przeorze.

Oto rodzaj „ścieżki”, o której myślę, żeby pokazać coś takiego:

Załóżmy, że przestrzenią parametrów jest i niech i będą dwoma priorytetami, które umieszczają niezerową masę prawdopodobieństwa na wszystkich . Tak więc dwa późniejsze obliczenia dla każdej poprzedniej kwoty: $\Theta$ $p(\theta)$ $q(\theta)$ $\Theta$

p (θ | x_{1}, \dots, x_{n}) = \frac{\prod_{i} p (x_{i} | θ) p (θ)}{\int_{θ} \prod_{i} p (x_{i} | θ) p (θ) d θ}

$p(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) p(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) p(\theta) d\theta}$

q (θ | x_{1}, \dots, x_{n}) = \frac{\prod_{i} p (x_{i} | θ) q (θ)}{\int_{θ} \prod_{i} p (x_{i} | θ) q (θ) d θ}

$q(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) q(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) q(\theta) d\theta}$

Jeśli podzielisz przez (boczne), otrzymasz: $p$ $q$

p (θ | x_{1}, \dots, x_{n}) / q (θ | x_{1}, \dots, x_{n}) = \frac{p (θ) \int_{θ} \prod_{i} p (x_{i} | θ) q (θ) d θ}{q (θ) \int_{θ} \prod_{i} p (x_{i} | θ) p (θ) d θ}

$p(\theta | x_1,\ldots,x_n)/q(\theta | x_1,\ldots,x_n) = \frac{p(\theta)\int_{\theta} \prod_i p(x_i | \theta) q(\theta)d \theta}{q(\theta)\int_{\theta} \prod_i p(x_i | \theta) p(\theta)d \theta}$

Teraz chciałbym zbadać powyższy termin, ponieważ idzie do . Idealnie byłoby przejść do dla pewnej która "ma sens" lub innego miłego zachowania, ale nie mogę wymyślić, jak coś tam pokazać. $n$ $\infty$ $1$ $\theta$

bayesian prior

— bayesianOrFrequentist
źródło

Dla pewnej intuicji zwróć uwagę, że prawdopodobieństwo skaluje się wraz z wielkością próby, podczas gdy wcześniejsze nie.

— Makro

@Macro, dzięki, miałem też tę intuicję, ale nie mogłem jej posunąć dalej. Zobacz moje zmiany powyżej.

— bayesianOrFrequentist

Pierwsze kilka rozdziałów podręcznika Ghosha i Ramamoorthiego „ Bayesian Nonparametrics” ukazuje rzeczy, o których mówisz (najpierw w ustawieniach parametrycznych, a potem nieparametrycznych); jest dostępny za pośrednictwem Springera online za darmo, jeśli jesteś w odpowiedniej instytucji. Istnieje wiele sposobów sformalizowania braku zależności od uprzedniej asymptotycznie, ale oczywiście istnieje kilka warunków prawidłowości.

— facet

Zauważ, że stosunek tylny jest tylko proporcjonalny do stosunku poprzedniego, więc stosunek prawdopodobieństwa ani dowodów tak naprawdę nie wpływa na to.

— probabilityislogic

Odpowiedzi:

Prosta, ale miejmy nadzieję intuicyjna odpowiedź.

Spójrz na to z punktu widzenia przestrzeni logów: gdzie jest stałą zależną od danych, ale nie od parametru, i gdzie twoje prawdopodobieństwa zakładają obserwacje. Dlatego skoncentruj się tylko na części, która określa kształt tylnej części ciała, a mianowicie
$- \log P (θ | x_{1}, \dots, x_{n}) = - \log P (θ) - \sum_{i = 1}^{n} \log P (x_{i} | θ) - C_{n}$ $-\log P(\theta|x_1, \ldots, x_n) = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta) - C_n$ $C_n>0$ $S_{n} = - \log P (θ) - \sum_{i = 1}^{n} \log P (x_{i} | θ)$ $S_n = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta)$
Załóżmy, że istnieje takie, że . Jest to uzasadnione w przypadku dystrybucji dyskretnych. $D>0$ $-\log P(\theta) \leq D$
Ponieważ wszystkie warunki są pozytywne, „wzrośnie” (pomijam tutaj szczegóły techniczne). Ale wkład przeor jest ograniczony przez . W związku z tym ułamek wniesiony przez przeora, który wynosi najwyżej , zmniejsza się monotonicznie przy każdej dodatkowej obserwacji. $S_n$ $D$ $D/S_n$

Rygorystyczne dowody muszą oczywiście dotyczyć szczegółów technicznych (i mogą być bardzo trudne), ale powyższe ustawienie jest IMHO bardzo podstawową częścią.

— Pedro A. Ortega
źródło

Jestem nieco zdezorientowany tym, co mają oznaczać stwierdzenia, że „przeor jest zapomniany” i „większość dowodów jest pod wpływem dowodów”. Zakładam, że masz na myśli wzrost ilości danych, estymator (-y) zbliża się do prawdziwej wartości parametru niezależnie od naszego wcześniejszego.

Zakładając pewne warunki prawidłowości w postaci rozkładu tylnego, estymatory Bayesa są spójne i asymptotycznie bezstronne (patrz Gelman i in., Rozdział 4 ). Oznacza to, że wraz ze wzrostem wielkości próby estymator Bayesa zbliża się do prawdziwej wartości parametru. Spójność oznacza, że estymator Bayesa zbiega się w prawdopodobieństwie z prawdziwą wartością parametru, a asymptotyczna bezstronność oznacza, że przy założeniu, że jest prawdziwą wartością parametru, $\theta_0$

\frac{E [\hat{θ} | θ_{0}] - θ_{0}}{\sqrt{V a r (\hat{θ})}} \overset{p}{\to} 0

$\frac{E[\hat{\theta}|\theta_0]-\theta_0}{\sqrt{\mathrm{Var}(\hat{\theta})}}\overset{p}\rightarrow0$

Zbieżność nie zależy od konkretnej formy uprzedniej, ale tylko od tego, że rozkład tylny uzyskany z wcześniejszego i prawdopodobieństwo spełniają warunki prawidłowości.

Najważniejszym warunkiem prawidłowości wymienionym w Gelman i wsp. Jest to, że prawdopodobieństwo jest ciągłą funkcją parametru, a prawdziwa wartość parametru znajduje się we wnętrzu przestrzeni parametrów. Ponadto, jak zauważyłeś, tylny musi być niezerowy w otwartym sąsiedztwie prawdziwej wartości prawdziwej wartości parametru. Zwykle twój priorytet powinien być niezerowy w całej przestrzeni parametrów.

— caburke
źródło

dzięki, bardzo wnikliwe. Miałem nadzieję na wynik, który nawet nie odnosiłby się do „prawdziwej” wartości parametru. Po prostu pokazując, że pod względem technicznym, ponieważ masz więcej dowodów, tylny, który dostaniesz, jest taki sam, niezależnie od tego, od czego zacząłeś. Zamierzam wprowadzić kilka zmian, aby to odzwierciedlić.

— bayesianOrFrequentist

@bayesianOrFrequentist Spójrz na tak zwane Bayesowskie twierdzenie o granicy centralnej .

— Stéphane Laurent,