W 1946 r. Geofizyk i statystyki bayesowskie Harold Jeffreys wprowadzili to, co dziś nazywamy rozbieżnością Kullbacka-Leiblera, i odkryli, że dla dwóch dystrybucji, które są „nieskończenie blisko” (miejmy nadzieję, że chłopaki Math SE tego nie widzą ;-) możemy napisać ich rozbieżność Kullbacka-Leiblera jako postać kwadratowa, której współczynniki są podane przez elementy macierzy informacji Fishera. Zinterpretował tę kwadratową formę jako element długości rozmaitości Riemanniana, przy czym informacja Fishera odgrywa rolę metryki Riemanniana. Na podstawie tej geometrii modelu statystycznego wyliczył wcześniejszy Jeffreysa jako miarę naturalnie indukowaną przez metrykę Riemanniana, a miara ta może być interpretowana jako samoistnie jednorodny rozkład na rozmaitości, chociaż generalnie nie jest to miara skończona.
Aby napisać dokładny dowód, musisz dostrzec wszystkie warunki prawidłowości i zadbać o porządek terminów błędów w rozszerzeniach Taylora. Oto krótki szkic argumentu.
Symetryczna rozbieżność Kullbacka-Leiblera między dwoma gęstościami f i g jest zdefiniowana jako
D[f,g]=∫(f(x)−g(x))log(f(x)g(x))dx.
Jeśli mamy rodzinę gęstości sparametryzowaną przez θ=(θ1,…,θk) , to
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] = ∫(p(x,∣θ)−p(x∣θ+Δθ))log(p(x∣θ)p(x∣θ+Δθ))dx,
w którymΔθ=(Δθ1,…,Δθk) . Wprowadzenie zapisu
Δp(x∣θ)=p(x∣θ)−p(x∣θ+Δθ),
jakaś prosta algebra daje
D[p(⋅∣θ),p(⋅∣θ+Δθ)]=∫Δp(x∣θ)p(x∣θ)log(1+Δp(x∣θ)p(x∣θ))p(x∣θ)dx.
Używając rozszerzenia Taylora dla logarytmu naturalnego, mamy
log(1+Δp(x∣θ)p(x∣θ))≈Δp(x∣θ)p(x∣θ),
a zatem
D[p(⋅∣θ),p(⋅∣ θ + Δ θ ) ] ≈ ∫( Δ p ( x ∣ θ )p ( x ∣ θ ))2)p ( x ∣ θ )rex.
Ale
Δ p ( x ∣ θ )p ( x ∣ θ )≈ 1p ( x ∣ θ )∑i = 1k∂p ( x ∣ θ )∂θjaΔ θja= ∑i = 1k∂logp ( x ∣ θ )∂θjaΔ θja.
Stąd
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] ≈ ∑i , j = 1ksolI jΔ θjaΔ θjot,
w którym
solI j= ∫∂logp ( x ∣ θ )∂θja∂logp ( x ∣ θ )∂θjotp ( x ∣ θ )rex.
To jest oryginalny papier:
Jeffreys, H. (1946). Niezmienna forma dla wcześniejszego prawdopodobieństwa w problemach z oszacowaniem. Proc. Royal Soc. z Londynu, seria A, 186, 453–461.