Prawdopodobieństwo vs rozkład warunkowy dla analizy bayesowskiej

13

Możemy zapisać twierdzenie Bayesa jako

p (θ | x) = \frac{fa (X | θ) p (θ)}{\int_{θ} fa (X | θ) p (θ) re θ}

$p(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta}$

gdzie jest tylnym, jest rozkładem warunkowym, a jest wcześniejszym. $p(\theta|x)$ $f(X|\theta)$ $p(\theta)$

lub

p (θ | x) = \frac{L. (θ | x) p (θ)}{\int_{θ} L. (θ | x) p (θ) re θ}

$p(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta}$

gdzie jest tylnym, jest funkcją prawdopodobieństwa, a jest wcześniejszym. $p(\theta|x)$ $L(\theta|x)$ $p(\theta)$

Moje pytanie brzmi

Dlaczego analiza bayesowska jest wykonywana przy użyciu funkcji prawdopodobieństwa, a nie rozkładu warunkowego?
Czy możesz powiedzieć słowami, jaka jest różnica między prawdopodobieństwem a rozkładem warunkowym? Wiem, że prawdopodobieństwo nie jest rozkładem prawdopodobieństwa i . $L(\theta|x) \propto f(X|\theta)$

bayesian likelihood

— kzoo
źródło

1

Nie ma różnicy! Prawdopodobieństwo to rozkład warunkowy , cóż, jest proporcjonalny do, co się liczy.

f (X | θ)

$f(X | \theta)$

— kjetil b halvorsen

1

Poprzedni parametr ma gęstość . jeśli realizacja ma wartość podczas gdy jest obserwowaną wartością zmiennej losowej , wówczas wartość funkcji prawdopodobieństwa wynosi dokładnie , wartość warunkowego gęstości z . Różnica polega na tym, że dla wszystkich realizacji . Jednak w funkcji

Θ

$\Theta$

p_{Θ} (θ)

$p_\Theta(\theta)$

Θ

$\Theta$

θ

$\theta$

x

$x$

X

$X$

L (θ ∣ x)

$L(\theta\mid x)$

f (x ∣ θ)

$f(x\mid \theta)$

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{X\mid\Theta}(x\mid\Theta=\theta)$

X

$X$

\int_{- \infty}^{\infty} {fa}_{X ∣ Θ} (x ∣ Θ = θ) re x = 1

$\int_{-\infty}^{\infty}f_{X\mid\Theta}(x\mid\Theta=\theta)dx=1$

Θ

$\Theta$

θ

$\theta$ (i stałe ), jest nie gęstość:

x

$x$

L (θ ∣ x)

$L(\theta\mid x)$

\int L. (θ ∣ x) re θ \neq 1

$\int L(\theta\mid x)d\theta\neq 1$

— Dilip Sarwate

11

Załóżmy, że masz zmiennych losowych (których wartości zostaną zaobserwowane w eksperymencie), które są warunkowo niezależne, biorąc pod uwagę, że , o gęstościach warunkowych $X_1,\dots,X_n$ $\Theta=\theta$ , dla . To jest twój (postulowany) model statystyczny (warunkowy), a gęstości warunkowe wyrażają, dla każdej możliwej wartości (losowego) parametru , twoją niepewność co do wartości ,zanimbędziesz mieć dostęp do jakiejkolwiek rzeczywistej dane. Za pomocą gęstości warunkowych można na przykład obliczyć prawdopodobieństwa warunkowe, takie jak $f_{X_i\mid\Theta}(\,\cdot\mid\theta)$ $i=1,\dots,n$ $\theta$ $\Theta$ $X_i$ dla każdego .

P. {X_{1} \in b_{1}, \dots, X_{n} \in b_{n} ∣ Θ = θ} = \int_{b_{1} \times \dots \times b_{n}} \prod_{ja = 1}^{n} {fa}_{X_{ja} ∣ Θ} (x_{ja} ∣ θ) re x_{1} \dots re x_{n},

$P\{X_1\in B_1,\dots,X_n\in B_n\mid \Theta=\theta\} = \int_{B_1\times\dots\times B_n} \prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta)\,dx_1\dots dx_n \, ,$

θ

$\theta$

$(x_1,\dots,x_n)$ $X_i$ $X_1,\dots,X_n$ $\Theta$ $\Pi$ $(x_1,\dots,x_n)$

{L.}_{x_{1}, \dots, x_{n}} : Π \to R

$L_{x_1,\dots,x_n} : \Pi \to \mathbb{R} \,$

{L.}_{x_{1}, \dots, x_{n}} (θ) = \prod_{ja = 1}^{n} {fa}_{X_{ja} ∣ Θ} (x_{ja} ∣ θ) .

$L_{x_1,\dots,x_n}(\theta)=\prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta) \, .$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

θ

$\theta$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

Odpowiadając na twoje pytanie, aby zrozumieć różnice między pojęciami gęstości warunkowej i prawdopodobieństwa, pamiętaj o ich matematycznych definicjach (które są wyraźnie różne: są to różne obiekty matematyczne o różnych właściwościach), a także pamiętaj, że gęstość warunkowa jest „pre -sample ”obiekt / koncepcja, podczas gdy prawdopodobieństwo jest„ po próbce ”. Mam nadzieję, że wszystko to pomoże ci również odpowiedzieć na pytanie, dlaczego wnioskowanie bayesowskie (używając twojego sposobu wyrażenia, co nie uważam za idealne) odbywa się „przy użyciu funkcji prawdopodobieństwa, a nie rozkładu warunkowego”: celem wnioskowania bayesowskiego jest aby obliczyć rozkład tylny i aby tego dokonać, opieramy się na obserwowanych (znanych) danych.

— Zen
źródło

Myślę, że Zen ma rację, gdy mówi, że prawdopodobieństwo i prawdopodobieństwo warunkowe są różne. W funkcji prawdopodobieństwa θ nie jest zmienną losową, dlatego różni się od prawdopodobieństwa warunkowego.

— Martine

2

Proporcjonalność służy do uproszczenia analizy

$f(X|\theta)$

p (θ | x) \propto {L.}_{x} (θ) \cdot p (θ) {L.}_{x} (θ) \propto \prod_{ja = 1}^{n} fa (x_{ja} | θ) .

$p(\theta|\mathbf{x}) \propto L_\mathbf{x}(\theta) \cdot p(\theta) \quad \quad \quad \quad L_\mathbf{x}(\theta) \propto \prod_{i=1}^n f(x_i|\theta).$

$\theta$

$X_1, ..., X_n \sim \text{IID N}(\theta, 1)$ $\bar{x} = \tfrac{1}{n} \sum_{i=1}^n x_i$ $\bar{\bar{x}} = \tfrac{1}{n} \sum_{i=1}^n x_i^2$

\begin{aligned} fa (x | θ) = \prod_{ja = 1}^{n} fa (x_{ja} | θ) & = \prod_{ja = 1}^{n} N. (x_{ja} | θ, 1) \\ = \prod_{ja = 1}^{n} \frac{1}{\sqrt{2) π}} \exp (- \frac{1}{2)} (x_{ja} - θ)^{2)}) \\ = (2) π)^{n / 2)} \exp (- \frac{1}{2)} \sum_{ja = 1}^{n} (x_{ja} - θ)^{2)}) . \\ = (2) π)^{n / 2)} \exp (- \frac{n}{2)} (θ^{2)} - 2) \bar{x} θ + \bar{\bar{x}})) \\ = (2) π)^{n / 2)} \exp (- \frac{n \bar{\bar{x}}}{2)}) \cdot \exp (- \frac{n}{2)} (θ^{2)} - 2) \bar{x} θ)) \end{aligned}

$\begin{equation} \begin{aligned} f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i|\theta) &= \prod_{i=1}^n \text{N}(x_i|\theta,1) \\[6pt] &= \prod_{i=1}^n \frac{1}{\sqrt{2 \pi}} \exp \Big( -\frac{1}{2} (x_i-\theta)^2 \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{1}{2} \sum_{i=1}^n (x_i-\theta)^2 \Big). \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta + \bar{\bar{x}} ) \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n \bar{\bar{x}}}{2} \Big) \cdot \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \\[6pt] \end{aligned} \end{equation}$

$\theta$

{L.}_{x} (θ) = \exp (- \frac{n}{2)} (θ^{2)} - 2) \bar{x} θ)) .

$L_\mathbf{x}(\theta) = \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big).$

$\theta$ $\theta \sim \text{N}(0,\lambda_0)$ $\lambda_0>0$

\begin{aligned} p (θ | x) & \propto {L.}_{x} (θ) \cdot p (θ) \\ = \exp (- \frac{n}{2)} (θ^{2)} - 2) \bar{x} θ)) \cdot N. (θ | 0, λ_{0}) \\ \propto \exp (- \frac{n}{2)} (θ^{2)} - 2) \bar{x} θ)) \cdot \exp (- \frac{λ_{0}}{2)} θ^{2)}) \\ = \exp (- \frac{1}{2)} (n θ^{2)} - 2) n \bar{x} θ + λ_{0} θ^{2)})) \\ = \exp (- \frac{1}{2)} ((n + λ_{0}) θ^{2)} - 2) n \bar{x} θ)) \\ = \exp (- \frac{n + λ_{0}}{2)} (θ^{2)} - 2) \frac{n \bar{x}}{n + λ_{0}} θ)) \\ \propto \exp (- \frac{n + λ_{0}}{2)} (θ - \frac{n}{n + λ_{0}} \cdot \bar{x})^{2)}) \\ \propto N. (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) . \end{aligned}

$\begin{equation} \begin{aligned} p(\theta|\mathbf{x}) &\propto L_\mathbf{x}(\theta) \cdot p(\theta) \\[10pt] &= \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \text{N}(\theta|0,\lambda_0) \\[6pt] &\propto \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \exp \Big( -\frac{\lambda_0}{2} \theta^2 \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( n\theta^2 - 2n\bar{x} \theta + \lambda_0 \theta^2 ) \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( (n+\lambda_0) \theta^2 - 2n\bar{x} \theta ) \Big) \\[6pt] &= \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta^2 - 2 \frac{n\bar{x}}{n+\lambda_0} \theta \Big) \Big) \\[6pt] &\propto \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta - \frac{n}{n+\lambda_0} \cdot \bar{x} \Big)^2 \Big) \\[6pt] &\propto \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big). \\[6pt] \end{aligned} \end{equation}$

Na podstawie tej pracy widzimy, że rozkład tylny jest proporcjonalny do normalnej gęstości. Ponieważ tylna musi być gęstością, oznacza to, że tylna jest gęstością normalną:

p (θ | x) = N. (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) .

$p(\theta|\mathbf{x}) = \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big).$

$\theta$

mi (θ | x) = \frac{n}{n + λ_{0}} \cdot \bar{x} V. (θ | x) = \frac{1}{n + λ_{0}} .

$\mathbb{E}(\theta|\mathbf{x}) = \frac{n}{n+\lambda_0} \cdot \bar{x} \quad \quad \quad \quad \mathbb{V}(\theta|\mathbf{x}) = \frac{1}{n+\lambda_0}.$

Teraz wyprowadzony przez nas rozkład tylny ma stałą całkowania z przodu (którą możemy łatwo znaleźć, patrząc na postać rozkładu normalnego ). Zauważ jednak, że nie musieliśmy się martwić o tę stałą multiplikatywną - wszystkie nasze działania usuwały (lub wprowadzały) multiplikatywne stałe, ilekroć upraszczało to matematykę. Ten sam wynik można uzyskać, śledząc multiplikatywne stałe, ale jest to znacznie bardziej chaotyczny.

— Ben - Przywróć Monikę
źródło

0

$_i$

Ten problem pojawił się w innych pytaniach omawianych na tej stronie dotyczących funkcji prawdopodobieństwa. Także inne komentarze kjetil i Dilip wydają się potwierdzać to, co mówię.

— Michael R. Chernick
źródło