Czy ktoś może wyjaśnić sprzężone priory w najprostszy możliwy sposób?

23

Od jakiegoś czasu staram się zrozumieć ideę sprzężonych priorów w statystyce bayesowskiej, ale po prostu nie rozumiem. Czy ktoś może wyjaśnić ten pomysł w najprostszy możliwy sposób, być może wykorzystując jako przykład „przeor Gaussa”?

bayesian conditional-probability conjugate-prior

— Jenna Maiz
źródło

23

Uprzedni parametr prawie zawsze będzie miał określoną formę funkcjonalną (zapisaną ogólnie w kategoriach gęstości). Powiedzmy, że ograniczamy się do jednej konkretnej rodziny dystrybucji, w którym to przypadku wybór naszego wcześniejszego ogranicza się do wyboru parametrów tej rodziny.

Na przykład, należy rozważyć normalnego modelu $Y_i \stackrel{_\text{iid}}{\sim} N(\mu,\sigma^2)$ . Dla uproszczenia weźmy również $\sigma^2$ jak wiadomo. Ta część modelu - model danych - określa funkcję prawdopodobieństwa.

Aby uzupełnić nasz model bayesowski, potrzebujemy uprzedniego dla $\mu$ .

Jak wspomniano powyżej, często możemy podać pewną rodzinę dystrybucyjną dla naszego przeora dla $\mu$ a następnie musimy jedynie wybrać parametry tego rozkładu (na przykład często wcześniejsze informacje mogą być dość niejasne - mniej więcej tam, gdzie chcemy skoncentrować się - zamiast bardzo specyficznej formy funkcjonalnej i możemy mieć wystarczającą swobodę modelowania tego, co chcemy, wybierając parametry - powiedzmy, aby dopasować wcześniejszą średnią i wariancję).

Jeśli okaże się, że a posteriori dla $\mu$ pochodzi z tej samej rodziny co poprzedni, wówczas mówi się, że ten wcześniejszy jest „sprzężony”.

(To, co sprawia, że okazuje się być koniugatem, to sposób, w jaki łączy się z prawdopodobieństwem)

Więc w tym przypadku weźmy wcześniejszy Gaussa dla $\mu$ (powiedzmy $\mu\sim N(\theta,\tau^2)$ ). Jeśli to zrobimy, zobaczymy, że tylny dla $\mu$ jest również gaussowski. W związku z tym przeor gaussowski był sprzężonym przeorem dla naszego powyższego modelu.

To wszystko, co tam naprawdę jest - jeśli tylny pochodzi z tej samej rodziny co przeor, jest to sprzężony przeor.

W prostych przypadkach można zidentyfikować koniugat przed sprawdzeniem prawdopodobieństwa. Rozważmy na przykład prawdopodobieństwo dwumianowe; upuszczając stałe, wygląda jak gęstość beta we $p$ ; a ze względu na sposób, w jaki łączą się moce i , pomnoży się przez beta, zanim da również iloczyn mocy i ... więc możemy natychmiast zobaczyć z prawdopodobieństwa, że beta będzie koniugatem przed dla prawdopodobieństwa dwumianowego. $p$ $(1-p)$ $p$ $(1-p)$ $p$

W przypadku Gaussa najłatwiej zauważyć, że stanie się to, biorąc pod uwagę gęstość kłód i prawdopodobieństwo kłody; prawdopodobieństwo logarytmiczne będzie kwadratowe w a suma dwóch kwadratów jest kwadratowe, więc kwadrat logarytmiczny poprzedzający + kwadratowy prawdopodobieństwo logarytmiczne daje kwadratową pozycję tylną (każdy ze współczynników terminu najwyższego rzędu będzie oczywiście ujemny). $\mu$

— Glen_b - Przywróć Monikę
źródło

9

Jeśli twój model należy do rodziny wykładniczej , to znaczy, jeśli gęstość rozkładu ma postać

f (x | θ) = h (x) \exp {T (θ) \cdot S (x) - ψ (θ)} x \in X θ \in Θ

$f(x|\theta)=h(x)\exp\{T(\theta)\cdot S(x)-\psi(\theta)\}\qquad x\in\mathcal{X}\quad\theta\in\Theta$ względemdanego środka dominującym(Lebesgue'a, liczenie i TC.), gdzie

t \cdot s

$t\cdot s$ oznacza produkt nad skalarną

R^{d}

$\mathbb{R}^d$ i

T : X ⟶ R^{d} S : Θ ⟶ R^{d}

$T:\mathcal{X}\longrightarrow \mathbb{R}^d\qquad S:\Theta\longrightarrow \mathbb{R}^d$ są funkcjami mierzalnymi, sprzężone priory na

θ

$\theta$ są zdefiniowane przez gęstości postaci

π (θ | ξ, λ) = C (ξ, λ) \exp {T (θ) \cdot ξ - λ ψ (θ)}

$\pi(\theta|\xi,\lambda)=C(\xi,\lambda)\exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\}$ [w odniesieniu doarbitralnie wybranego środka dominującego

d ν

$\text{d}\nu$ na

Θ

$\Theta$ ] z

C (ξ, λ)^{- 1} = \int_{Θ} \exp {T (θ) \cdot ξ - λ ψ (θ)} d ν < \infty

$C(\xi,\lambda)^{-1}=\int_\Theta \exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\} \text{d}\nu<\infty$ i

λ \in Λ \subset R_{+}

$\lambda\in\Lambda\subset\mathbb{R}_+$ ,

ξ \in Ξ \subset λ T (X)

$\xi\in\Xi\subset \lambda T(\mathcal{X})$

Wybór miary dominującej jest determinujący dla rodziny przełożonych. Jeśli na przykład ktoś zmierzy się z normalnym średnim prawdopodobieństwem na $\mu$ jak w odpowiedzi Glen_b , wybranie miary Lebesgue'a $\text{d}\mu$ jako dominującej miary prowadzi do sprzężenia normalnych priorów. Jeśli zamiast tego wybierze się $(1+\mu^2)^{-2}\text{d}\mu$ jako miarę dominującą, priory sprzężone należą do rodziny rozkładów o gęstości

\exp {- α (μ - μ_{0})^{2}} α > 0, μ_{0} \in R

$\exp\{-\alpha(\mu-\mu_0)^2\} \qquad\alpha>0,\ \ \mu_0\in\mathbb R$ w odniesieniu do tej dominującej miary, a zatem nie są już normalnymi priorytetami. Trudność ta jest zasadniczo taka sama, jak trudność wyboru określonej parametryzacji prawdopodobieństwa i wyboru miary Lebesgue'a dla tej parametryzacji. W obliczu funkcji prawdopodobieństwa nie ma nieodłącznej (ani wewnętrznej ani referencyjnej) dominującej miary w przestrzeni parametrów.

Poza tym wykładniczym ustawieniem rodziny nie ma nietrywialnej rodziny dystrybucji ze stałą obsługą, która pozwala na sprzężone priory. Jest to konsekwencja lematu Darmois-Pitmana-Koopmana .

— Xi'an
źródło

11

„najprościej mówiąc” Być może wyjaśnienie, które nie zakłada wcześniejszej znajomości środków, byłoby bardziej przydatne dla PO.

3

Niestety, obawiam się, że priory sprzężone są pozbawione znaczenia bez tła miary (chociaż jest to najlepiej strzeżona tajemnica we Wszechświecie).

— Xi'an,

6

Moim zdaniem „najprostsze możliwe terminy” są otwarte na interpretację, a wyjaśnienie wykorzystujące zaawansowaną matematykę, takie jak teoria miar, może być w pewnym sensie „proste”, może nawet „prostsze” niż wyjaśnienie, które pozwala uniknąć takiej maszynerii. W każdym razie takie wyjaśnienie może być bardzo pouczające dla kogoś, kto ma niezbędne doświadczenie, aby je zrozumieć i nieszkodliwe jest umieszczanie takiej odpowiedzi na liście różnych sposobów wyjaśniania tematu. Piszemy odpowiedzi nie tylko dla OP, ale dla wszystkich przyszłych czytelników.

— littleO

1

@LBogaardt Twoja krytyka miałaby większą wagę, gdybyś mógł zamieścić link do jednego lub więcej pytań, w których Twoim zdaniem odpowiedź byłaby zarówno na dany temat, jak i na bardziej odpowiednim poziomie. Pamiętaj, że „prosty” nie jest dobrze zdefiniowanym terminem i ma różne subiektywne interpretacje. Niezależnie od tego, błędne byłoby połączenie go z „matematycznie niewyszukanym”, jak sugerują twoje komentarze.

— whuber

2

Odpowiedź Xi'ana nie jest dla mnie bezużyteczna. Nauczyłem się czegoś.

— littleO

2

Lubię używać pojęcia „jądra” dystrybucji. Tutaj pozostawiasz tylko części zależne od parametru. Kilka prostych przykładów.

Jądro normalne

p (μ | a, b) = K^{- 1} \times \exp (a μ^{2} + b μ)

$p(\mu|a,b) = K^{-1} \times \exp(a\mu^2 +b\mu)$ Gdzie

K

$K$ jest „stałą normalizującą”

K = \int \exp (a μ^{2} + b μ) d μ = \sqrt{\frac{π}{- a}} \exp (- \frac{b^{2}}{4 a})

$K=\int \exp(a\mu^2 +b\mu)d\mu=\sqrt{\frac{\pi}{-a}}\exp(-\frac{b^2}{4a})$

E (μ | a, b) = - \frac{b}{2 a}

$E(\mu|a,b)=-\frac{b}{2a}$

V a r (μ | a, b) = - \frac{1}{2 a}

$Var(\mu|a,b)=-\frac{1}{2a}$

p (θ | a, b) = K^{- 1} \times θ^{a} (1 - θ)^{b}

$p(\theta|a,b)=K^{-1}\times \theta^a (1-\theta)^b$ Where

K = \int θ^{a} (1 - θ)^{b} d θ = B e t a (a + 1, b + 1)

$K=\int \theta^a (1-\theta)^b d\theta = Beta(a+1,b+1)$

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = Q \times f (μ)

$p(D|\mu)=\prod_{i=1}^n p(x_i|\mu)=Q\times f(\mu)$

For some constant $Q$ and some function $f(\mu)$ . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = [\prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}}] \times \prod_{i = 1}^{n} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2} - 2 x_{i} μ + μ^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2}}{2}) \times \exp (μ \sum_{i = 1}^{n} x_{i} - μ^{2} \frac{n}{2}) = Q \times \exp (a μ^{2} + b μ)

$p(D|\mu) =\prod_{i=1}^n p(x_i|\mu) =\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_i-\mu)^2}{2}) =\left[\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\right]\times \prod_{i=1}^n \exp(-\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2-2x_i\mu+\mu^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})\times\exp(\mu\sum_{i=1}^n x_i-\mu^2\frac{n}{2}) =Q\times \exp(a\mu^2 +b\mu)$

where $a=-\frac{n}{2}$ and $b=\sum_{i=1}^n x_i$ and $Q=(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})$

This likelihood function has the same kernel as the normal distribution for $\mu$ , so a conjugate prior for this likelihood is also the normal distribution.

p (μ | a_{0}, b_{0}) = K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ)

$p(\mu|a_0,b_0)=K_0^{-1}\exp(a_0\mu^2 +b_0\mu)$ The posterior is then

p (μ | D, a_{0}, b_{0}) \propto K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ) \times Q \times \exp (a μ^{2} + b μ) = K_{0}^{- 1} \times Q \times \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ) \propto \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ)

$p(\mu|D,a_0,b_0)\propto K_0^{-1}\exp(a_0\mu^2 +b_0\mu)\times Q\times \exp(a\mu^2 +b\mu)=K_0^{-1}\times Q\times \exp([a+a_0]\mu^2 +[b+b_0]\mu)\propto\exp([a+a_0]\mu^2 +[b+b_0]\mu)$ Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

— probabilityislogic
źródło

1

(+1) I appreciate the pseudo-data intuition!

— Xi'an

1

For a given distribution family $D_{lik}$ of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family $D_{pri}$ as the posterior (e.g. Beta),

then $D_{pri}$ and $D_{lik}$ are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: $\underbrace{p(\theta|x)}_{\text{posterior}} \sim \underbrace{p(x|\theta)}_{\text{likelihood}} \cdot \underbrace{p(\theta)}_{\text{prior}}$

— Thomas G.
źródło

How does this explain what a conjugate prior is?

— LBogaardt

ok I'll edit that.

— Thomas G.