Związek między miernikiem Fishera a względną entropią

20

Czy ktoś może udowodnić następujący związek między wskaźnikiem informacji Fishera a względną entropią (lub dywergencją KL) w czysto matematyczny, rygorystyczny sposób?

D (p (\cdot, a + d a) ∥ p (\cdot, a)) = \frac{1}{2} g_{i, j} d a^{i} d a^{j} + (O (‖ d a ‖^{3})

$D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3)$ gdzie

a = (a^{1}, \dots, a^{n}), d a = (d a^{1}, \dots, d a^{n})

$a=(a^1,\dots, a^n), da=(da^1,\dots,da^n)$ ,

g_{i, j} = \int \partial_{i} (\log p (x; a)) \partial_{j} (\log p (x; a)) p (x; a) d x

$g_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx$ i

g_{i, j} d a^{i} d a^{j} := \sum_{i, j} g_{i, j} d a^{i} d a^{j}

$g_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j$ jest konwencją sumowania Einsteina.

Znalazłem powyższe na ładnym blogu Johna Baeza, gdzie Vasileios Anagnostopoulos mówi o tym w komentarzach.

mathematical-statistics kullback-leibler fisher-information

— Kumara
źródło

1

Drogi Kumara: Dla wyjaśnienia pomogłoby to lepiej wyjaśnić twoją notację, a konkretnie znaczenie . Myślę też, że w twoim wyrażeniu brakuje stałego współczynnika przed pierwszym wyrazem prawej strony równania wyświetlania. Zauważ, że to, co sam Kullback nazwał dywergencją (używając notacji ) jest symetryczną wersją tego, co jest znane, zwaną dywergencją KL, tj. . Rozbieżność KL oznaczono w pismach Kullbacka. To tłumaczy również współczynnik . Twoje zdrowie.

g_{i, j}

$g_{i,j}$

1 / 2

$1/2$

J (\cdot, \cdot)

$J(\cdot,\cdot)$

J (p, q) = D (p ‖ q) + D (q ‖ p)

$J(p,q) = D(p \| q) + D(q \| p)$

I (\cdot, \cdot)

$I(\cdot,\cdot)$

1 / 2

$1/2$

— kardynał

19

W 1946 r. Geofizyk i statystyki bayesowskie Harold Jeffreys wprowadzili to, co dziś nazywamy rozbieżnością Kullbacka-Leiblera, i odkryli, że dla dwóch dystrybucji, które są „nieskończenie blisko” (miejmy nadzieję, że chłopaki Math SE tego nie widzą ;-) możemy napisać ich rozbieżność Kullbacka-Leiblera jako postać kwadratowa, której współczynniki są podane przez elementy macierzy informacji Fishera. Zinterpretował tę kwadratową formę jako element długości rozmaitości Riemanniana, przy czym informacja Fishera odgrywa rolę metryki Riemanniana. Na podstawie tej geometrii modelu statystycznego wyliczył wcześniejszy Jeffreysa jako miarę naturalnie indukowaną przez metrykę Riemanniana, a miara ta może być interpretowana jako samoistnie jednorodny rozkład na rozmaitości, chociaż generalnie nie jest to miara skończona.

Aby napisać dokładny dowód, musisz dostrzec wszystkie warunki prawidłowości i zadbać o porządek terminów błędów w rozszerzeniach Taylora. Oto krótki szkic argumentu.

Symetryczna rozbieżność Kullbacka-Leiblera między dwoma gęstościami $f$ i $g$ jest zdefiniowana jako

D [f, g] = \int (f (x) - g (x)) \log (\frac{f (x)}{g (x)}) d x .

$D[f,g] = \int (f(x) - g(x)) \log\left(\frac{f(x)}{g(x)} \right) dx \, .$

Jeśli mamy rodzinę gęstości sparametryzowaną przez $\theta=(\theta_1,\dots,\theta_k)$ , to

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int (p (x, ∣ θ) - p (x ∣ θ + Δ θ)) \log (\frac{p (x ∣ θ)}{p (x ∣ θ + Δ θ)}) d x,

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] = \int ( p(x,\mid\theta) - p(x\mid\theta + \Delta\theta)) \log\left( \frac{p(x\mid\theta)}{p(x\mid\theta + \Delta\theta)}\right) \,dx \, ,$ w którym

Δ θ = (Δ θ_{1}, \dots, Δ θ_{k})

$\Delta\theta=(\Delta\theta_1,\dots,\Delta\theta_k)$ . Wprowadzenie zapisu

Δ p (x ∣ θ) = p (x ∣ θ) - p (x ∣ θ + Δ θ),

$\Delta p(x\mid\theta) = p(x\mid\theta) - p(x\mid\theta + \Delta\theta) \, ,$ jakaś prosta algebra daje

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int \frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) p (x ∣ θ) d x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] = \int\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)p(x\mid\theta)\,dx \, .$ Używając rozszerzenia Taylora dla logarytmu naturalnego, mamy

\log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) \approx \frac{Δ p (x ∣ θ)}{p (x ∣ θ)},

$\log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right) \approx \frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \, ,$ a zatem

re [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \int {(\frac{Δ p (x ∣ θ)}{p (x ∣ θ)})}^{2)} p (x ∣ θ) re x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] \approx \int\left(\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)^2p(x\mid\theta)\,dx \, .$ Ale

\frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \approx \frac{1}{p (x ∣ θ)} \sum_{ja = 1}^{k} \frac{\partial p (x ∣ θ)}{\partial θ_{ja}} Δ θ_{ja} = \sum_{ja = 1}^{k} \frac{\partial \log p (x ∣ θ)}{\partial θ_{ja}} Δ θ_{ja} .

$\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \approx \frac{1}{p(x\mid\theta)} \sum_{i=1}^k \frac{\partial p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i = \sum_{i=1}^k \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i \, .$ Stąd

re [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \sum_{ja, jot = 1}^{k} {sol}_{ja jot} Δ θ_{ja} Δ θ_{jot},

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] \approx \sum_{i,j=1}^k g_{ij} \,\Delta\theta_i \, \Delta\theta_j \, ,$ w którym

{sol}_{ja jot} = \int \frac{\partial \log p (x ∣ θ)}{\partial θ_{ja}} \frac{\partial \log p (x ∣ θ)}{\partial θ_{jot}} p (x ∣ θ) re x .

$g_{ij} = \int \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \frac{\partial \log p(x\mid\theta)}{\partial\theta_j} p(x\mid\theta) \,dx \, .$

To jest oryginalny papier:

Jeffreys, H. (1946). Niezmienna forma dla wcześniejszego prawdopodobieństwa w problemach z oszacowaniem. Proc. Royal Soc. z Londynu, seria A, 186, 453–461.

— Zen
źródło

1

Dziękuję bardzo za miłe pisanie. Byłoby miło, jeśli możesz pomóc to jak dobrze.

— Kumara

Tak, słusznie powiedziałeś. Muszę wyjść z tej „pułapki abstrakcji”.

— Kumara,

@zen Używasz rozszerzenia logarytmu Taylora w ramach całki, dlaczego to jest poprawne?

— Sus20200

1

Wydaje się kluczowe, aby zacząć od symetrycznej dywergencji KL, w przeciwieństwie do standardowej dywergencji KL. Artykuł w Wikipedii nie wspomina o symetrycznej wersji, więc może być niepoprawny. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

— Dowódca chirurgiczny

11

Dowód zwykłej (niesymetrycznej) dywergencji KL

Odpowiedź Zen wykorzystuje symetryczną dywergencję KL, ale wynik ma również zwykłą formę, ponieważ staje się symetryczny dla nieskończenie bliskich rozkładów.

$\theta$

re (p_{θ}, p_{θ + re θ}) = \sum p_{θ} \log p_{θ} - \sum p_{θ} \log p_{θ + re θ} .

$\begin{equation} D(p_\theta,p_{\theta+d\theta})=\sum p_\theta \log p_\theta - \sum p_\theta \log p_{\theta+d\theta}\ . \end{equation}$

= \underset{= 0}{\underset{⏟}{\sum p_{θ} \log p_{θ} - \sum p_{θ} \log p_{θ}}} - d θ \underset{= 0 †}{\underset{⏟}{\sum p_{θ} \frac{d}{d θ} \log p_{θ}}} - \frac{1}{2} {d θ}^{2} \underset{= - \sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2} ‡}{\underset{⏟}{\sum p_{θ} \frac{d^{2}}{d θ^{2}} \log p_{θ}}} + O ({d θ}^{3}) = \frac{1}{2} {d θ}^{2} \underset{Fisher information}{\underset{⏟}{\sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2}}} + O ({d θ}^{3}) .

$\begin{equation} = \underbrace{\sum p_\theta \log p_\theta - \sum p_\theta \log p_\theta}_{=\ 0} - d\theta \underbrace{\sum p_\theta \frac{d}{d\theta}\log p_\theta}_{=\ 0 \ \dagger} - \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta}_{= -\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2 \ \ddagger} + \mathcal{O}({d\theta}^3) \\ = \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2}_{\textrm{Fisher information}} + \mathcal{O}({d\theta}^3). \end{equation}$ Assuming some regularities, I have used the two results:

† : \sum p_{θ} \frac{d}{d θ} \log p_{θ} = \sum \frac{d}{d θ} p_{θ} = \frac{d}{d θ} \sum p_{θ} = 0,

$\begin{equation} \dagger: \sum p_\theta \frac{d}{d\theta}\log p_\theta = \sum \frac{d}{d\theta} p_\theta = \frac{d}{d\theta} \sum p_\theta =0, \end{equation}$

\begin{aligned} ‡ : \sum p_{θ} \frac{d^{2}}{d θ^{2}} \log p_{θ} & = \sum p_{θ} \frac{d}{d θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ}) \\ = \sum p_{θ} [\frac{1}{p_{θ}} \frac{d^{2} p_{θ}}{d θ} - (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2}] \\ = \sum \frac{d^{2} p_{θ}}{d θ^{2}} - \sum p_{θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2} \\ = \underset{= 0}{\underset{⏟}{\frac{d^{2}}{d θ^{2}} \sum p_{θ}}} - \sum p_{θ} (\frac{d}{d θ} \log p_{θ})^{2} . \end{aligned}

$\begin{align} \ddagger: \sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta &= \sum p_\theta \frac{d}{d\theta}(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta}) \\ &= \sum p_\theta \left[\frac{1}{p_\theta}\frac{d^2p_\theta}{d\theta}-(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta})^2\right] \\ &= \sum \frac{d^2p_\theta}{d\theta^2} - \sum p_\theta (\frac{1}{p_\theta} \frac{dp_\theta}{d\theta})^2 \\ &= \underbrace{\frac{d^2}{d\theta^2} \sum p_\theta}_{=\ 0} - \sum {p_\theta} (\frac{d}{d\theta}\log p_\theta)^2. \end{align}$

— Abhranil Das
źródło

4

You can find a similar relationship (for a one-dimensional parameter) in equation (3) of the following paper

D. Guo (2009), Relative Entropy and Score Function: New Information–Estimation Relationships through Arbitrary Additive Perturbation, in Proc. IEEE International Symposium on Information Theory, 814–818. (stable link).

The authors refer to

S. Kullback, Information Theory and Statistics. New York: Dover, 1968.

for a proof of this result.

— Primo Carnera
źródło

1

A multivariate version of equation (3) of that paper is proven in the cited Kullback text on pages 27-28. The constant

1 / 2

$1/2$ seems to have gone missing in the OP's question. :)

— cardinal