Próbuję uzupełnić inne odpowiedzi ... Jakimi informacjami są informacje Fishera? Zacznij od funkcji loglikelihood
jako funkcji for , przestrzeni parametrów. Zakładając pewne warunki regularności, których tutaj nie omawiamy, mamy
(napiszemy pochodne w odniesieniu do parametru jako kropki, jak tutaj). Wariacją jest informacja Fishera
θ θ ∈ Θ E ∂
ℓ(θ)=logf(x;θ)
θθ∈ΘI(θ)=Eθ( ˙ ZNICA ˙ ℓ (θ))2=-eθ ¨ ℓ (θ)θ ˙ ZNICA ˙ ℓ (θ)=0 ˙ ZNICA ˙ ℓ (θ)E∂∂θℓ(θ)=Eθℓ˙(θ)=0I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
ostatnia formuła pokazująca, że jest to (ujemna) krzywizna funkcji loglikelihood. Często można znaleźć estymator największej wiarygodności (mle) dla , rozwiązując równanie wiarygodności gdy informacja Fishera jako wariancja wyniku jest duża, wówczas rozwiązanie tego równania będzie bardzo wrażliwe na dane, dając nadzieję na wysoką precyzję mle. Potwierdza to przynajmniej asymptotycznie, przy czym asymptotyczna wariancja mle jest odwrotnością informacji Fishera.
θℓ˙(θ)=0ℓ˙(θ)
Jak możemy to interpretować? jest informacją o prawdopodobieństwie parametru z próbki. Można to naprawdę zinterpretować tylko w sensie względnym, na przykład gdy używamy go do porównywania prawdopodobieństwa dwóch różnych możliwych wartości parametrów za pomocą testu współczynnika prawdopodobieństwa . Tempo zmian prawdopodobieństwa logicznego jest funkcją wyniku mówi nam, jak szybko zmienia się prawdopodobieństwo, a jego wariancja jak bardzo zmienia się to od próbki do próbki, przy danym parametrze wartość, powiedz . Równanie (co jest naprawdę zaskakujące!)
θ ℓ ( θ 0 ) - ℓ ( θ 1 ) ˙ ℓ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 ˙ ℓ ( θ ) ∣ θ = θ 0 θ θ 0ℓ(θ)θℓ(θ0)−ℓ(θ1)ℓ˙(θ)I(θ)θ0
I(θ)=−Eθℓ¨(θ)
mówi nam, że istnieje związek (równość) między zmiennością informacji (prawdopodobieństwa) dla danej wartości parametru, , a krzywizną funkcji wiarygodności dla tej wartości parametru. Jest to zaskakujący związek między zmiennością (wariancją) statystyki ths a oczekiwaną zmianą podobieństwa, gdy zmienimy parametr w pewnym przedziale czasowym (dla tych samych danych). To naprawdę dziwne, zaskakujące i potężne!
θ0ℓ˙(θ)∣θ=θ0θθ0
Więc jaka jest funkcja prawdopodobieństwa? Zwykle myślimy o modelu statystycznym jako o rodzinie rozkładów prawdopodobieństwa dla danych , indeksowanych przez parametr jakiś element w przestrzeni parametrów . Uważamy ten model za prawdziwy, jeśli istnieje jakaś wartość tak że dane faktycznie mają rozkład prawdopodobieństwa . Otrzymujemy więc model statystyczny, osadzając prawdziwy rozkład prawdopodobieństwa generujący dane{f(x;θ),θ∈Θ}xθΘθ0∈Θxf(x;θ0)f(x;θ0)w rodzinie rozkładów prawdopodobieństwa. Ale jasne jest, że takie osadzenie można wykonać na wiele różnych sposobów, a każde takie osadzenie będzie „prawdziwym” modelem i dadzą różne funkcje prawdopodobieństwa. I bez takiego osadzenia nie ma funkcji wiarygodności. Wydaje się, że naprawdę potrzebujemy pomocy, pewnych zasad, jak mądrze wybrać osadzenie!
Co to znaczy? Oznacza to, że wybór funkcji wiarygodności mówi nam, jak oczekiwalibyśmy zmiany danych, gdyby prawda nieco się zmieniła. Ale tak naprawdę nie można tego zweryfikować na podstawie danych, ponieważ dane dostarczają tylko informacji o prawdziwej funkcji modelu która faktycznie wygenerowała dane, a nie nic o wszystkich innych elementach wybranego modelu. W ten sposób widzimy, że wybór funkcji prawdopodobieństwa jest podobny do wyboru wcześniejszego w analizie bayesowskiej, wprowadza on do analizy informacje niebędące danymi. Spójrzmy na to w prostym (nieco sztucznym) przykładzie i spójrzmy na efekt osadzenia w modelu na różne sposoby.f(x;θ0)f(x;θ0)
Załóżmy, że są oznaczone jako . To jest prawdziwa dystrybucja generująca dane. Teraz osadzimy to w modelu na dwa różne sposoby: model A i model B.
możesz sprawdzić, czy to zbiega się z .X1,…,XnN(μ=10,σ2=1)
A:X1,…,Xn iid N(μ,σ2=1),μ∈RB:X1,…,Xn iid N(μ,μ/10),μ>0
μ=10
Funkcje loglikelihood stają się
ℓA(μ)=−n2log(2π)−12∑i(xi−μ)2ℓB(μ)=−n2log(2π)−n2log(μ/10)−102∑i(xi−μ)2μ
Funkcje punktacji: (pochodne loglikelihood):
a krzywizny
więc informacje Fishera naprawdę zależą od osadzenia. Teraz obliczamy informacje Fishera na prawdziwej wartości ,
więc informacje Fishera dotyczące parametru są nieco większe w modelu B.
ℓ˙A(μ)=n(x¯−μ)ℓ˙B(μ)=−n2μ−102∑i(xiμ)2−15n
ℓ¨A(μ)=−nℓ¨B(μ)=n2μ2+102∑i2x2iμ3
μ=10IA(μ=10)=n,IB(μ=10)=n⋅(1200+20202000)>n
To pokazuje, że w pewnym sensie informacja Fishera mówi nam, jak szybko zmieniłaby się informacja z danych o parametrze , gdyby parametr rządzący zmienił się w sposób postulowany przez osadzenie w rodzinie modeli . Wyjaśnienie wyższych informacji w modelu B jest takie, że nasza rodzina modeli B postuluje, że jeśli oczekiwanie wzrosłoby, to również wariancja wzrosła . Aby w modelu B wariancja próbki zawierała również informacje o , czego nie zrobi w modelu A.μ
Ten przykład pokazuje również, że naprawdę potrzebujemy teorii, aby pomóc nam w konstruowaniu rodzin modeli.