Yudi Pawitan pisze w swojej książce We All Likelihood, że drugą pochodną prawdopodobieństwa logarytmu ocenianego przy szacunkach maksymalnego prawdopodobieństwa (MLE) są zaobserwowane informacje Fishera (patrz także ten dokument , strona 2). Właśnie tak większość algorytmów optymalizacyjnych lubi optim
w R
zamian: Hesjan oceniany w MLE. Kiedy negatywlog-prawdopodobieństwo jest zminimalizowane, zwracany jest ujemny Hesjan. Jak słusznie wskazujesz, szacowane standardowe błędy MLE są pierwiastkami kwadratowymi diagonalnych elementów odwrotności obserwowanej macierzy informacji Fishera. Innymi słowy: Pierwiastki kwadratowe diagonalnych elementów odwrotności Hesji (lub ujemnego Hesji) są szacowanymi błędami standardowymi.
Podsumowanie
- Ujemny Hesjan oceniany w MLE jest taki sam, jak obserwowana matryca informacji Fishera oceniana w MLE.
- Odnośnie twojego głównego pytania: Nie, nie jest prawdą, że zaobserwowane informacje Fishera można znaleźć, odwracając (ujemny) Hesjan.
- Odnośnie do twojego drugiego pytania: Odwrotność (ujemnego) Hesji jest estymatorem asymptotycznej macierzy kowariancji. Zatem pierwiastki kwadratowe diagonalnych elementów macierzy kowariancji są estymatorami błędów standardowych.
- Wydaje mi się, że drugi dokument, do którego linkujesz, jest błędny.
Formalnie
Niech będzie funkcją logarytmu prawdopodobieństwa. Informacje Fisher matrycy jest symetryczna matrycę zawierającą dane:
obserwowano informacje Fisher matryca jest po prostu , matryca informacji oceniana przy szacunkach maksymalnego prawdopodobieństwa (MLE). Hesjan jest zdefiniowany jako:
l(θ) I(θ)(p×p)
I(θ)=−∂2∂θi∂θjl(θ), 1≤i,j≤p
I(θ^ML)H(θ)=∂2∂θi∂θjl(θ), 1≤i,j≤p
To nic innego jak macierz drugich pochodnych funkcji prawdopodobieństwa w odniesieniu do parametrów. Wynika z tego, że jeśli zminimalizujesz
ujemne prawdopodobieństwo logarytmiczne, zwrócony Hesjan jest ekwiwalentem obserwowanej macierzy informacji Fishera, podczas gdy w przypadku maksymalizacji logarytmicznego prawdopodobieństwa,
ujemny Hesjan jest matrycą obserwowanych informacji.
Ponadto odwrotność macierzy informacji Fishera jest estymatorem asymptotycznej macierzy kowariancji:
Błędy standardowe to zatem pierwiastki kwadratowe diagonalnych elementów macierzy kowariancji. Dla asymptotycznego rozkładu oszacowania maksymalnego prawdopodobieństwa możemy napisać
gdzie oznacza prawdziwą wartość parametru. Dlatego szacowany błąd standardowy szacunków maksymalnego prawdopodobieństwa podaje:
Var(θ^ML)=[I(θ^ML)]−1
θ^ML∼aN(θ0,[I(θ^ML)]−1)
θ0SE(θ^ML)=1I(θ^ML)−−−−−−√