Zrozumienie rozkładów predykcyjnych bayesowskich

9

Biorę udział w kursie Wprowadzenie do Bayesa i mam trudności ze zrozumieniem rozkładów predykcyjnych. Rozumiem, dlaczego są przydatne i znam definicję, ale są pewne rzeczy, których nie do końca rozumiem.

1) Jak uzyskać właściwy rozkład predykcyjny dla wektora nowych obserwacji

Załóżmy, że zbudowaliśmy model próbkowania dla danych i wcześniejszego . Zakładamy, że obserwacje są warunkowo niezależne podano . $p(y_i | \theta)$ $p(\theta)$ $y_i$ $\theta$

Zaobserwowaliśmy pewne dane i aktualizujemy nasze poprzednie do tylnego . $\mathcal{D} = \{y_1, y_2, \, ... \, , y_k\}$ $p(\theta)$ $p(\theta | \mathcal{D})$

Gdybyśmy chcieli przewidzieć wektor nowych obserwacji , I myślę, że powinniśmy spróbować uzyskać przewidywanie z tyłu za pomocą tej formuły co nie jest równe więc przewidywane obserwacje nie są niezależne, prawda? $\mathcal{N} = \{\tilde{y}_1, \tilde{y}_2, \, ... \, , \tilde{y}_n\}$

p (N | D) = \int p (θ | D) p (N | θ) d θ = \int p (θ | D) \prod_{i = 1}^{n} p ({\tilde{y}}_{i} | θ) d θ,

$p(\mathcal{N} | \mathcal{D}) = \int p(\theta | \mathcal{D}) p ( \mathcal{N} | \theta) \, \mathrm{d} \theta = \int p(\theta | \mathcal{D}) \prod_{i=1}^n p(\tilde{y}_i | \theta) \, \mathrm{d} \theta,$

\prod_{i = 1}^{n} \int p (θ | D) p ({\tilde{y}}_{i} | θ) d θ,

$\prod_{i=1}^n \int p(\theta | \mathcal{D}) p(\tilde{y}_i | \theta) \, \mathrm{d} \theta,$

Powiedz, że Beta ( ) i Dwumianowy ( ) dla stałej . W takim przypadku, jeśli chciałbym zasymulować 6 nowych , jeśli dobrze to rozumiem, błędem byłoby symulowanie 6 losowań niezależnie od rozkładu Beta-Dwumianowego, który odpowiada predykcji tylnej dla pojedynczej obserwacji. Czy to jest poprawne? Nie wiem, jak interpretować, że obserwacje nie są marginalnie niezależne i nie jestem pewien, czy dobrze to rozumiem. $\theta | \mathcal{D} \sim$ $a,b$ $p(y_i | \theta) \sim$ $n, \theta$ $n$ $\tilde{y}$

Symulowanie z późniejszych predykcji

Wiele razy, gdy symulujemy dane z predykcji tylnej, stosujemy ten schemat:

Dla od 1 do : $b$ $B$

1) Próbka z . $\theta^{(b)}$ $p(\theta | \mathcal{D})$

2) Następnie symuluj nowe dane z . $\mathcal{N}^{(b)}$ $p(\mathcal{N} | \theta^{(b)})$

Nie bardzo wiem, jak udowodnić, że ten schemat działa, choć wygląda intuicyjnie. Czy to też ma nazwę? Próbowałem znaleźć uzasadnienie i wypróbowałem różne nazwiska, ale nie miałem szczęścia.

Dzięki!

bayesian prediction

— Fred L.
źródło

Zadałem podobne pytanie na stronie stats.stackexchange.com/questions/72570/…, ale wygląda na to, że do tej pory otrzymałeś więcej głosów.

— Jan

4

Przypuszczam, że $X_1,\dots,X_n,X_{n+1}$ są pod tym względem niezależne warunkowo $\Theta=\theta$ . Następnie,

f_{X_{n + 1} ∣ X_{1}, \dots, X_{n}} (x_{n + 1} ∣ x_{1}, \dots, x_{n}) = \int f_{X_{n + 1}, Θ ∣ X_{1}, \dots, X_{n}} (x_{n + 1}, θ ∣ x_{1}, \dots, x_{n}) d θ

$f_{X_{n+1}\mid X_1,\dots,X_n}(x_{n+1}\mid x_1,\dots,x_n) = \int f_{X_{n+1},\Theta\mid X_1,\dots,X_n}(x_{n+1},\theta\mid x_1,\dots,x_n)\,d\theta$

= \int f_{X_{n + 1} ∣ Θ, X_{1}, \dots, X_{n}} (x_{n + 1} ∣ θ, x_{1}, \dots, x_{n}) f_{Θ ∣ X_{1}, \dots, X_{n}} (θ ∣ x_{1}, \dots, x_{n}) d θ

$= \int f_{X_{n+1}\mid\Theta,X_1,\dots,X_n}(x_{n+1}\mid\theta,x_1,\dots,x_n) f_{\Theta\mid X_1,\dots,X_n}(\theta\mid x_1,\dots,x_n) \, d\theta$

= \int f_{X_{n + 1} ∣ Θ} (x_{n + 1} ∣ θ) f_{Θ ∣ X_{1}, \dots, X_{n}} (θ ∣ x_{1}, \dots, x_{n}) d θ,

$= \int f_{X_{n+1}\mid\Theta}(x_{n+1}\mid\theta) f_{\Theta\mid X_1,\dots,X_n}(\theta\mid x_1,\dots,x_n) \, d\theta \, ,$ w którym pierwsza równość wynika z prawa całkowitego prawdopodobieństwa, druga wynika z reguły iloczynu, a trzecia z założonej niezależności warunkowej: biorąc pod uwagę wartość

Θ

$\Theta$ , nie potrzebujemy wartości

X_{1}, \dots, X_{n}

$X_1,\dots,X_n$ określić rozkład

X_{n + 1}

$X_{n+1}$ .

Schemat symulacji jest poprawny: dla $i=1,\dots,N$ , remis $\theta^{(i)}$ z dystrybucji $\Theta\mid X_1=x_1,\dots,X_n=x_n$ , wtedy Rysuj $x_{n+1}^{(i)}$ z dystrybucji $X_{n+1}\mid\Theta=\theta^{(i)}$ . To daje próbkę $\{x_{n+1}^{(i)}\}_{i=1}^N$ z dystrybucji $X_{n+1}\mid X_1=x_1,\dots,X_n=x_n$ .

— Zen
źródło

Co powiesz na to, że przewidujesz późniejszą prognozę na wiele okresów? Używałem

θ^{(i)}

$\theta^{\left(i\right)}$ dla każdego

x_{n + j}

$x_{n+j}$ , ale rozumiem, dlaczego warto przerysować nową theta.

— John

2

Spróbuję omówić krok po kroku intuicję generowania tylnej dystrybucji predykcyjnej.

Pozwolić $y$ być wektorem obserwowanych danych pochodzących z rozkładu prawdopodobieństwa $p(y|\theta)$ i pozwól $\tilde y$ być wektorem przyszłych (lub nieobjętych próbą) wartości, które chcemy przewidzieć. Zakładamy to $\tilde y$ pochodzi z tej samej dystrybucji co $y$ . Kuszące może być skorzystanie z naszych najlepszych szacunków $\theta$ --- takie jak oszacowanie MLE lub MAP --- w celu uzyskania informacji o tym rozkładzie. Takie postępowanie nieuchronnie zignorowałoby jednak naszą niepewność $\theta$ . Zatem właściwym sposobem postępowania jest uśrednienie w stosunku do rozkładu tylnego $\theta$ , mianowicie $p(\theta|y)$ . Zauważ też, że $\tilde y$ jest niezależny od $y$ dany $\theta$ , ponieważ zakłada się, że jest to niezależna próbka pobrana z tego samego rozkładu co $y$ . A zatem,

p (\tilde{y} | θ, y) = \frac{p (\tilde{y}, y | θ) p (θ)}{p (θ, y)} = \frac{p (\tilde{y} | θ) p (y | θ) p (θ)}{p (y | θ) p (θ)} = p (\tilde{y} | θ) .

$\displaystyle p(\tilde y| \theta, y) = \frac{p(\tilde y, y|\theta )p(\theta)}{p(\theta, y)} = \frac{p(\tilde y|\theta )p(y |\theta) p(\theta)}{p(y| \theta)p(\theta)} = p(\tilde y |\theta).$

Rozkład predykcyjny z tyłu $\tilde y$ jest zatem

p (\tilde{y} | y) = \int_{Θ} p (\tilde{y} | θ, y) p (θ | y) d θ = \int_{Θ} p (\tilde{y} | θ) p (θ | y) d θ

gdzie $\Theta$ jest wsparciem $\theta$ .

Teraz, w jaki sposób otrzymujemy próbki $p(\tilde y|y)$ ? Metodę, którą opisujesz, nazywa się czasem metodą kompozycji , która działa w następujący sposób:

dla s = 1,2, ..., S do

remis $\theta^{(s)}$ od $p(\theta|y)$

remis $\tilde y^{(s)}$ od $p(\tilde y|\theta^{(s)})$

gdzie w większości sytuacji mamy już remisy $p(\theta|y)$ , tak że wymagany jest tylko drugi krok.

Powód, dla którego to działa, jest dość prosty: po pierwsze, że to $p(\tilde y, \theta | y) = p(\tilde y| \theta, y)p(\theta | y)$ . Zatem próbkowanie wektora parametru $\theta^{(s)}$ od $p(\theta|y)$ a następnie za pomocą tego wektora do próbkowania $\tilde y^{(s)}$ od $p(\tilde y | \theta^{(s)}) = p(\tilde y | \theta^{(s)}, y)$ daje próbki ze wspólnego rozkładu $p(\tilde y, \theta|y)$ . Wynika z tego, że próbkowane wartości $\tilde y^{(s)}, s=1,2,...,S$ są próbkami z rozkładu krańcowego, $p(\tilde y|y)$ .

— baruuum
źródło

1

Aby odpowiedzieć na twoje pierwsze pytanie: tak, obserwacje nie są niezależne, jeśli nie znasz wartości $\theta$ . Powiedz, że to zauważyłeś $\tilde{y}_1$ ma raczej ekstremalną wartość. Może to wskazywać, że nieznana wartość $\theta$ samo w sobie jest ekstremalne, dlatego też należy oczekiwać, że inne obserwacje również będą ekstremalne.

— hr0nix
źródło