Dlaczego dokładnie wykorzystano zaobserwowane informacje Fishera?

17

W standardowym ustawieniu maksymalnego prawdopodobieństwa (np. Próbka $Y_{1}, \ldots, Y_{n}$ z pewnego rozkładu o gęstości )), aw przypadku poprawnie określonego modelu, informacje Fishera podaje: $f_{y}(y|\theta_{0}$

I (θ) = - E_{θ_{0}} [\frac{\partial^{2}}{θ^{2}} \ln f_{y} (θ)]

$I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right]$

gdzie oczekiwane jest rzeczywiste zagęszczenie, które wygenerowało dane. Czytałem, że zaobserwowałem informację Fishera

\hat{J} (θ) = - \frac{\partial^{2}}{θ^{2}} \ln f_{y} (θ)

$\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta)$

jest używana głównie, ponieważ całka zaangażowana w obliczanie (oczekiwanej) informacji Fisher może w niektórych przypadkach być niewykonalna. To, co mnie dezorientuje, to fakt, że nawet jeśli całka jest wykonalna, należy przyjąć oczekiwania w odniesieniu do prawdziwego modelu, który obejmuje nieznaną wartość parametru . Jeśli tak jest w istocie wydaje się, że bez znajomości nie jest możliwe obliczenie . Czy to prawda? $\theta_{0}$ $\theta_{0}$ $I$

maximum-likelihood fisher-information

— użytkownik2249626
źródło

13

Masz tutaj cztery liczby: prawdziwy parametr , spójne oszacowanie , oczekiwane informacje w i obserwowane informacje w . Ilości te są równoważne tylko asymptotycznie, ale zazwyczaj tak się je stosuje. $\theta_0$ $\hat \theta$ $I(\theta)$ $\theta$ $J(\theta)$ $\theta$

Obserwowane informacje zbieżny w prawdopodobieństwie z oczekiwanymi informacjami gdy jest próbką id z . Tutaj wskazuje oczekiwanie w / r / t rozkładu indeksowanego przez : . Ta zbieżność obowiązuje z powodu prawa wielkich liczb, więc założenie, że jest tutaj kluczowe.
$J (θ_{0}) = \frac{1}{N} \sum_{i = 1}^{N} \frac{\partial^{2}}{\partial θ_{0}^{2}} \ln f (y_{i} | θ_{0})$ $J (\theta_0) = \frac{1}{N} \sum_{i=1}^N \frac{\partial^2}{\partial \theta_0^2} \ln f( y_i|\theta_0)$ $I (θ_{0}) = E_{θ_{0}} [\frac{\partial^{2}}{\partial θ_{0}^{2}} \ln f (y | θ_{0})]$ $I(\theta_0) = E_{\theta_0} \left[ \frac{\partial^2}{\partial \theta_0^2} \ln f( y| \theta_0) \right]$ $Y$ $f(\theta_0)$ $E_{\theta_0} (x)$ $\theta_0$ $\int x f(x | \theta_0) dx$ $Y \sim f(\theta_0)$
Kiedy masz oszacowanie które jest zbieżne w prawdopodobieństwie z prawdziwym parametrem (tzn. Jest spójne), możesz zastąpić go dowolnym miejscem, w którym widzisz powyżej, głównie z powodu ciągłego twierdzenia o odwzorowaniu , i wszystkie zbieżności nadal się utrzymują. $\hat \theta$ $\theta_0$ $\theta_0$ $^*$

$^*$ Właściwie wydaje się to nieco subtelne .

Uwaga

Jak można się domyślać, obserwowane informacje są zazwyczaj łatwiejsze do pracy, ponieważ różnicowanie jest łatwiejsze niż integracja, a być może już je oceniłeś podczas jakiejś optymalizacji numerycznej. W niektórych okolicznościach (rozkład normalny) będą one takie same.

Artykuł „Ocena dokładności estymatora maksymalnego prawdopodobieństwa: obserwowane i oczekiwane informacje Fishera” autorstwa Efron i Hinkleya (1978) przemawia na korzyść zaobserwowanych informacji dla próbek skończonych.

— Andrew M.
źródło

4

Było kilka badań symulacyjnych, które wydają się wspierać obserwacje teoretyczne Efrona i Hinkleya (wspomniane w odpowiedzi Andrew), oto jedno, które znam od razu: Maldonado, G. i Greenland, S. (1994). Porównanie wydajności przedziałów ufności opartych na modelu, gdy poprawna forma modelu jest nieznana. Epidemiology, 5, 171–182. Nie widziałem żadnych sprzecznych badań. Interesujące jest to, że standardowe pakiety GLM, o których wiem, używają oczekiwanych informacji do obliczania odstępów Walda. Oczywiście nie stanowi to problemu, gdy (jak w GLM liniowych w parametrze naturalnym) zaobserwowane i oczekiwane matryce informacji są równe.

— Sander Greenland
źródło