Związek między macierzą Hesji a macierzą kowariancji

Podczas gdy ja studiuję oszacowanie maksymalnego prawdopodobieństwa, aby wnioskować w oszacowaniu maksymalnego prawdopodobieństwa, musimy znać wariancję. Aby dowiedzieć się o wariancji, muszę poznać Dolną Granicę Kramera, która wygląda jak matryca Hesji z Drugim Pochyleniem krzywizny. Jestem trochę pomieszany, aby zdefiniować związek między macierzą kowariancji a macierzą hessian. Mam nadzieję usłyszeć wyjaśnienia dotyczące pytania. Doceniony zostanie prosty przykład.

— użytkownik122358
źródło

Najpierw zapoznaj się z tym podstawowym pytaniem na temat matrycy informacji Fishera i związkiem z Hesją i standardowymi błędami

Załóżmy, że mamy model statystyczny (rodzina rozkładów) . W najbardziej ogólnym przypadku mamy , więc rodzina parametryzowane . W pewnych warunkach prawidłowości mamy $\{f_{\theta}: \theta \in \Theta\}$ $dim(\Theta) = d$ $\theta = (\theta_1, \dots, \theta_d)^T$

I_{i, j} (θ) = - E_{θ} [\frac{\partial^{2} l (X; θ)}{\partial θ_{i} \partial θ_{j}}] = - E_{θ} [H_{i, j} (l (X; θ))]

$I_{i,j}(\theta) = -E_{\theta}\Big[\frac{\partial^2 l(X; \theta)}{\partial\theta_i\partial\theta_j}\Big] = -E_\theta\Big[H_{i,j}(l(X;\theta))\Big]$

gdzie jest macierzą informacji Fishera (jako funkcja ), a jest wartością obserwowaną (próbka) $I_{i,j}$ $\theta$ $X$

l (X; θ) = l n (f_{θ} (X)), for some θ \in Θ

$l(X; \theta) = ln(f_{\theta}(X)),\text{ for some } \theta \in \Theta$

Tak więc macierz informacji Fishera jest zanegowaną oczekiwaną wartością Hesian prawdopodobieństwa logarytmu poniżej pewnego $\theta$

Powiedzmy, że chcemy oszacować jakąś funkcję wektorową nieznanego parametru . Zwykle pożądane jest, aby estymator był bezstronny, tj. $\psi(\theta)$ $T(X) = (T_1(X), \dots, T_d(X))$

\forall_{θ \in Θ} E_{θ} [T (X)] = ψ (θ)

$\forall_{\theta \in \Theta}\ E_{\theta}[T(X)] = \psi(\theta)$

Cramer Rao dolnej granicy stanów, że dla każdego nieobciążonego w spełnia $T(X)$ $cov_{\theta}(T(X))$

c o v_{θ} (T (X)) \geq \frac{\partial ψ (θ)}{\partial θ} I^{- 1} (θ) (\frac{\partial ψ (θ)}{\partial θ})^{T} = B (θ)

$cov_{\theta}(T(X)) \ge \frac{\partial\psi(\theta)}{\partial\theta}I^{-1}(\theta)\Big(\frac{\partial\psi(\theta)}{\partial\theta}\Big)^T = B(\theta)$

gdzie dla macierzy oznacza, że jest dodatnim półokreślonym , to po prostu jakobski . Zauważ, że jeśli oszacujemy , czyli , powyżej uprości to $A \ge B$ $A - B$ $\frac{\partial\psi(\theta)}{\partial\theta}$ $J_{i,j}(\psi)$ $\theta$ $\psi(\theta) = \theta$

c o v_{θ} (T (X)) \geq I^{- 1} (θ)

$cov_{\theta}(T(X)) \ge I^{-1}(\theta)$

Ale co nam to naprawdę mówi? Przypomnij sobie na przykład

v a r_{θ} (T_{i} (X)) = [c o v_{θ} (T (X))]_{i, i}

$var_{\theta}(T_i(X)) = [cov_{\theta}(T(X))]_{i,i}$

i dla każdego dodatniego pół-określonej macierzy elementy przekątnej są nieujemne $A$

\forall_{i} A_{i, i} \geq 0

$\forall_i\ A_{i,i} \ge 0$

Z powyższego możemy wywnioskować, że wariancja każdego oszacowanego elementu jest ograniczona diagonalnymi elementami macierzy $B(\theta)$

\forall_{i} v a r_{θ} (T_{i} (X)) \geq [B (θ)]_{i, i}

$\forall_i\ var_{\theta}(T_i(X)) \ge [B(\theta)]_{i,i}$

Więc CRLB nie mówi nam wariancji naszego estymatora, ale czy nasz estymator jest optymalny , tj. Czy ma najniższą kowariancję wśród wszystkich obiektywnych estymatorów.

— Łukasz Grad
źródło

Doceniam twoje wyjaśnienie tutaj. Tak naprawdę nie jestem matematyką, ale przeszkadzam w nauce matematyki. Jednak nadal wydaje mi się to zbyt abstrakcyjne. Mam nadzieję, że istnieje jakiś delikatny przykład z prostymi liczbami, który na pewno to zrozumie.

— user122358