Jakiego rodzaju informacjami są informacje Fishera?

Załóżmy, że mamy losową zmienną . Jeśli jest parametrem prawdziwym, funkcja prawdopodobieństwa powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada leżąca u podstaw estymatora maksymalnego prawdopodobieństwa. $X \sim f(x|\theta)$ $\theta_0$

Jak rozumiem, informacje Fishera są zdefiniowane jako

I (θ) = E [{(\frac{\partial}{\partial θ} f (X | θ))}^{2}]

$I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ]$

Zatem jeśli jest prawdziwym parametrem, . Ale jeśli nie jest prawdziwym parametrem, będziemy mieli większą ilość informacji Fishera. $\theta_0$ $I(\theta) = 0$ $\theta_0$

moje pytania

Czy informacje Fishera mierzą „błąd” danego MLE? Innymi słowy, czy istnienie pozytywnych informacji Fishera nie sugeruje, że mój MLE nie może być idealny?
Czym różni się ta definicja „informacji” od definicji stosowanej przez Shannona? Dlaczego nazywamy to informacją?

— Stan Shunpike
źródło

Dlaczego piszesz ? Oczekiwanie przekracza wartości rozproszonego tak jakby pochodziły z twojego rozkładu z parametrem .

E_{θ}

$E_\theta$

X

$X$

θ

$\theta$

— Neil G

Również nie ma zera przy prawdziwym parametrze.

I (θ)

$I(\theta)$

— Neil G

E (S) wynosi zero (tj. Oczekiwanie na funkcję score), ale jak napisał Neil G - informacja Fishera (V (S)) nie jest (zwykle) zero.

— Tal Galili,

Odpowiedzi:

Próbuję uzupełnić inne odpowiedzi ... Jakimi informacjami są informacje Fishera? Zacznij od funkcji loglikelihood jako funkcji for , przestrzeni parametrów. Zakładając pewne warunki regularności, których tutaj nie omawiamy, mamy (napiszemy pochodne w odniesieniu do parametru jako kropki, jak tutaj). Wariacją jest informacja Fishera

ℓ (θ) = \log f (x; θ)

$\ell (\theta) = \log f(x;\theta)$

θ

$\theta$

θ \in Θ

$\theta \in \Theta$

E \frac{\partial}{\partial θ} ℓ (θ) = E_{θ} \dot{ℓ} (θ) = 0

$\DeclareMathOperator{\E}{\mathbb{E}} \E \frac{\partial}{\partial \theta} \ell (\theta) = \E_\theta \dot{\ell}(\theta) = 0$

I (θ) = E_{θ} (\dot{ℓ} (θ))^{2} = - E_{θ} \ddot{ℓ} (θ)

$I(\theta) = \E_\theta ( \dot{\ell}(\theta) )^2= -\E_\theta \ddot{\ell}(\theta)$ ostatnia formuła pokazująca, że jest to (ujemna) krzywizna funkcji loglikelihood. Często można znaleźć estymator największej wiarygodności (mle) dla , rozwiązując równanie wiarygodności gdy informacja Fishera jako wariancja wyniku jest duża, wówczas rozwiązanie tego równania będzie bardzo wrażliwe na dane, dając nadzieję na wysoką precyzję mle. Potwierdza to przynajmniej asymptotycznie, przy czym asymptotyczna wariancja mle jest odwrotnością informacji Fishera.

θ

$\theta$

\dot{ℓ} (θ) = 0

$\dot{\ell}(\theta)=0$

\dot{ℓ} (θ)

$\dot{\ell}(\theta)$

Jak możemy to interpretować? jest informacją o prawdopodobieństwie parametru z próbki. Można to naprawdę zinterpretować tylko w sensie względnym, na przykład gdy używamy go do porównywania prawdopodobieństwa dwóch różnych możliwych wartości parametrów za pomocą testu współczynnika prawdopodobieństwa . Tempo zmian prawdopodobieństwa logicznego jest funkcją wyniku mówi nam, jak szybko zmienia się prawdopodobieństwo, a jego wariancja jak bardzo zmienia się to od próbki do próbki, przy danym parametrze wartość, powiedz . Równanie (co jest naprawdę zaskakujące!) $\ell(\theta)$ $\theta$ $\ell(\theta_0) - \ell(\theta_1)$ $\dot{\ell}(\theta)$ $I(\theta)$ $\theta_0$

I (θ) = - E_{θ} \ddot{ℓ} (θ)

$I(\theta) = - \E_\theta \ddot{\ell}(\theta)$ mówi nam, że istnieje związek (równość) między zmiennością informacji (prawdopodobieństwa) dla danej wartości parametru, , a krzywizną funkcji wiarygodności dla tej wartości parametru. Jest to zaskakujący związek między zmiennością (wariancją) statystyki ths a oczekiwaną zmianą podobieństwa, gdy zmienimy parametr w pewnym przedziale czasowym (dla tych samych danych). To naprawdę dziwne, zaskakujące i potężne!

θ_{0}

$\theta_0$

\dot{ℓ} (θ) ∣_{θ = θ_{0}}

$\dot{\ell}(\theta) \mid_{\theta=\theta_0}$

θ

$\theta$

θ_{0}

$\theta_0$

Więc jaka jest funkcja prawdopodobieństwa? Zwykle myślimy o modelu statystycznym jako o rodzinie rozkładów prawdopodobieństwa dla danych , indeksowanych przez parametr jakiś element w przestrzeni parametrów . Uważamy ten model za prawdziwy, jeśli istnieje jakaś wartość tak że dane faktycznie mają rozkład prawdopodobieństwa . Otrzymujemy więc model statystyczny, osadzając prawdziwy rozkład prawdopodobieństwa generujący dane $\{ f(x;\theta), \theta \in \Theta \}$ $x$ $\theta$ $\Theta$ $\theta_0 \in \Theta$ $x$ $f(x;\theta_0)$ $f(x;\theta_0)$ w rodzinie rozkładów prawdopodobieństwa. Ale jasne jest, że takie osadzenie można wykonać na wiele różnych sposobów, a każde takie osadzenie będzie „prawdziwym” modelem i dadzą różne funkcje prawdopodobieństwa. I bez takiego osadzenia nie ma funkcji wiarygodności. Wydaje się, że naprawdę potrzebujemy pomocy, pewnych zasad, jak mądrze wybrać osadzenie!

Co to znaczy? Oznacza to, że wybór funkcji wiarygodności mówi nam, jak oczekiwalibyśmy zmiany danych, gdyby prawda nieco się zmieniła. Ale tak naprawdę nie można tego zweryfikować na podstawie danych, ponieważ dane dostarczają tylko informacji o prawdziwej funkcji modelu która faktycznie wygenerowała dane, a nie nic o wszystkich innych elementach wybranego modelu. W ten sposób widzimy, że wybór funkcji prawdopodobieństwa jest podobny do wyboru wcześniejszego w analizie bayesowskiej, wprowadza on do analizy informacje niebędące danymi. Spójrzmy na to w prostym (nieco sztucznym) przykładzie i spójrzmy na efekt osadzenia w modelu na różne sposoby. $f(x;\theta_0)$ $f(x;\theta_0)$

Załóżmy, że są oznaczone jako . To jest prawdziwa dystrybucja generująca dane. Teraz osadzimy to w modelu na dwa różne sposoby: model A i model B. możesz sprawdzić, czy to zbiega się z . $X_1, \dotsc, X_n$ $N(\mu=10, \sigma^2=1)$

A : X_{1}, \dots, X_{n} iid N (μ, σ^{2} = 1), μ \in R B : X_{1}, \dots, X_{n} iid N (μ, μ / 10), μ > 0

$A \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \sigma^2=1),\mu \in \mathbb{R} \\ B \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \mu/10), \mu>0$

μ = 10

$\mu=10$

Funkcje loglikelihood stają się

ℓ_{A} (μ) = - \frac{n}{2} \log (2 π) - \frac{1}{2} \sum_{i} (x_{i} - μ)^{2} ℓ_{B} (μ) = - \frac{n}{2} \log (2 π) - \frac{n}{2} \log (μ / 10) - \frac{10}{2} \sum_{i} \frac{(x_{i} - μ)^{2}}{μ}

$\ell_A(\mu) = -\frac{n}{2} \log (2\pi) -\frac12\sum_i (x_i-\mu)^2 \\ \ell_B(\mu) = -\frac{n}{2} \log (2\pi) - \frac{n}{2}\log(\mu/10) - \frac{10}{2}\sum_i \frac{(x_i-\mu)^2}{\mu}$

Funkcje punktacji: (pochodne loglikelihood): a krzywizny więc informacje Fishera naprawdę zależą od osadzenia. Teraz obliczamy informacje Fishera na prawdziwej wartości , więc informacje Fishera dotyczące parametru są nieco większe w modelu B.

{\dot{ℓ}}_{A} (μ) = n (\bar{x} - μ) {\dot{ℓ}}_{B} (μ) = - \frac{n}{2 μ} - \frac{10}{2} \sum_{i} (\frac{x_{i}}{μ})^{2} - 15 n

$\dot{\ell}_A(\mu) = n (\bar{x}-\mu) \\ \dot{\ell}_B(\mu) = -\frac{n}{2\mu}- \frac{10}{2}\sum_i (\frac{x_i}{\mu})^2 - 15 n$

{\ddot{ℓ}}_{A} (μ) = - n {\ddot{ℓ}}_{B} (μ) = \frac{n}{2 μ^{2}} + \frac{10}{2} \sum_{i} \frac{2 x_{i}^{2}}{μ^{3}}

$\ddot{\ell}_A(\mu) = -n \\ \ddot{\ell}_B(\mu) = \frac{n}{2\mu^2} + \frac{10}{2}\sum_i \frac{2 x_i^2}{\mu^3}$

μ = 10

$\mu=10$

I_{A} (μ = 10) = n, I_{B} (μ = 10) = n \cdot (\frac{1}{200} + \frac{2020}{2000}) > n

$I_A(\mu=10) = n, \\ I_B(\mu=10) = n \cdot (\frac1{200}+\frac{2020}{2000}) > n$

To pokazuje, że w pewnym sensie informacja Fishera mówi nam, jak szybko zmieniłaby się informacja z danych o parametrze , gdyby parametr rządzący zmienił się w sposób postulowany przez osadzenie w rodzinie modeli . Wyjaśnienie wyższych informacji w modelu B jest takie, że nasza rodzina modeli B postuluje, że jeśli oczekiwanie wzrosłoby, to również wariancja wzrosła . Aby w modelu B wariancja próbki zawierała również informacje o , czego nie zrobi w modelu A. $\mu$

Ten przykład pokazuje również, że naprawdę potrzebujemy teorii, aby pomóc nam w konstruowaniu rodzin modeli.

— kjetil b halvorsen
źródło

świetne wytłumaczenie. Dlaczego mówisz ? jest to funkcja - czy nie jest 0 tylko wtedy, gdy jest oceniana przy prawdziwym parametrze ?

\E_{θ} \dot{ℓ} (θ) = 0

$\E_\theta \dot{\ell}(\theta) =0$

θ

$\theta$

θ_{0}

$\theta_0$

— ihadanny,

Tak, to, co mówisz, jest prawdą, @idadanny Jest zero, gdy zostanie oszacowane na prawdziwą wartość parametru.

— kjetil b halvorsen

Jeszcze raz dziękuję @kjetil - więc jeszcze jedno pytanie: czy zaskakujący związek między wariancją partytury a krzywizną prawdopodobieństwa jest prawdziwy dla każdej ? czy tylko w sąsiedztwie prawdziwego parametru ?

θ

$\theta$

θ_{0}

$\theta_0$

— ihadanny,

Ponownie, trelationhip jest prawdziwy dla prawdziwej wartości parametru. Ale żeby to mogło być bardzo pomocne, musi istnieć ciągłość, aby była w przybliżeniu prawdziwa w niektórych okolicach, ponieważ użyjemy jej według szacowanej wartości , a nie tylko prawdziwej (nieznanej) wartości.

\hat{θ}

$\hat{\theta}$

— kjetil b halvorsen

więc relacja obowiązuje dla prawdziwego parametru , prawie dla ponieważ zakładamy, że jest ona w sąsiedztwie , ale dla ogólnego nie ma takiej wartości, prawda?

θ_{0}

$\theta_0$

θ_{m l e}

$\theta_{mle}$

θ_{0}

$\theta_0$

θ_{1}

$\theta_1$

— ihadanny,

Pomyślmy o funkcji ujemnego prawdopodobieństwa logarytmu . Wynik ujemny to jego gradient w stosunku do wartości parametru. Przy prawdziwym parametrze wynik wynosi zero. W przeciwnym razie podaje kierunek w kierunku minimum (lub w przypadku niewypukłego , punktu siodłowego lub lokalnego minimum lub maksimum). $\ell$ $\ell$ $\ell$

Informacja Fishera mierzy krzywiznę wokół jeśli dane następują . Innymi słowy, mówi ci, w jakim stopniu poruszenie parametru wpłynęłoby na twoje prawdopodobieństwo dziennika. $\ell$ $\theta$ $\theta$

Pomyśl, że miałeś duży model z milionami parametrów. I miałeś mały napęd na kciuk, na którym możesz przechowywać swój model. W jaki sposób należy ustalić priorytet liczby bitów każdego parametru do zapisania? Prawidłowa odpowiedź to przydzielenie bitów zgodnie z informacjami Fishera (pisał o tym Rissanen). Jeśli informacja Fishera parametru wynosi zero, parametr ten nie ma znaczenia.

Nazywamy to „informacją”, ponieważ informacja Fishera mierzy, ile ten parametr mówi nam o danych.

Potoczny sposób myślenia o tym jest następujący: załóżmy, że parametry prowadzą samochód, a dane znajdują się na tylnym siedzeniu, poprawiając kierowcę. Drażniącymi danymi jest informacja Fishera. Jeśli dane pozwalają kierowcy jechać, informacja Fishera wynosi zero; jeśli dane ciągle wprowadzają poprawki, są duże. W tym sensie informacja Fishera to ilość informacji przechodzących od danych do parametrów.

Zastanów się, co się stanie, jeśli zwiększysz czułość kierownicy. Jest to równoważne z reparametryzacją. W takim przypadku dane nie chcą być tak głośne z obawy przed nadsterownością samochodu. Ten rodzaj reparametryzacji zmniejsza informację Fishera.

— Neil G.
źródło

Uzupełnienie miłej odpowiedzi @ NeilG (+1) i odpowiedź na konkretne pytania:

Powiedziałbym, że liczy się „precyzja”, a nie „błąd”.

$I$ $I_{j,j}$ $tr(I)$ musi być pozytywne. Oznacza to, że możesz mieć tylko „nieidealne” estymatory zgodnie z twoim twierdzeniem. Więc nie, pozytywne informacje Fishera nie są powiązane z tym, jak idealny jest twój MLE.

W obu przypadkach definicja różni się sposobem interpretacji pojęcia informacji. To powiedziawszy, dwa pomiary są ze sobą ściśle powiązane.

Odwrotnością informacji Fishera jest minimalna wariancja obiektywnego estymatora ( związana z Cramér – Rao ). W tym sensie matryca informacji wskazuje, ile informacji o szacowanych współczynnikach zawiera dane. Przeciwnie, entropia Shannona została zaczerpnięta z termodynamiki. Odnosi zawartość informacyjną określonej wartości zmiennej jako gdzie jest prawdopodobieństwem, że zmienna przyjmuje wartość. Oba są pomiarami tego, jak „informacyjna” jest zmienna. W pierwszym przypadku jednak oceniasz te informacje pod względem precyzji, zaś w drugim przypadku pod względem nieporządku; różne strony, ta sama moneta! :RE $–p·log_2(p)$ $p$

Reasumując: Odwrotność macierzy informacji Fishera, oceniłem przy wartościach estymatora ML, jest asymptotyczną lub przybliżoną macierzą kowariancji. Ponieważ wartości estymatora ML znajdują się w lokalnym minimum w formie graficznej, informacje Fishera pokazują, jak głębokie jest to minimum i kto dużo porusza się wokół niego. Znalazłem ten artykuł Lutwaka i in. w sprawie rozszerzenia informacji Fishera i nierówności Stama - pouczająca lektura na ten temat. Artykuły w Wikipedii na temat wskaźników informacyjnych Fishera oraz rozbieżności Jensen – Shannon również są na początek. $I$

— usεr11852 mówi Reinstate Monic
źródło