Pytania otagowane jako fisher-information

Informacje Fishera mierzą krzywiznę logarytmu prawdopodobieństwa i mogą być wykorzystane do oceny skuteczności estymatorów.


2
Podstawowe pytanie o macierz informacji Fishera i związek z błędami hesyjskimi i standardowymi
Ok, to dość podstawowe pytanie, ale jestem trochę zdezorientowany. W mojej pracy magisterskiej piszę: Błędy standardowe można znaleźć, obliczając odwrotność pierwiastka kwadratowego elementów ukośnych (obserwowanej) macierzy informacji Fishera: sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Ponieważ polecenie optymalizacji w R minimalizuje (zaobserwowaną) macierz informacji Fishera można znaleźć, obliczając odwrotność Hesji: −logL−log⁡L-\log\mathcal{L}I(μ^,σ^2)=H−1I(μ^,σ^2)=H−1\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} Moje …

3
Jakiego rodzaju informacjami są informacje Fishera?
Załóżmy, że mamy losową zmienną . Jeśli jest parametrem prawdziwym, funkcja prawdopodobieństwa powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada leżąca u podstaw estymatora maksymalnego prawdopodobieństwa.X∼ f( x | θ )X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Jak rozumiem, informacje Fishera są zdefiniowane jako ja( θ ) = E [ ( …

3
Związek między miernikiem Fishera a względną entropią
Czy ktoś może udowodnić następujący związek między wskaźnikiem informacji Fishera a względną entropią (lub dywergencją KL) w czysto matematyczny, rygorystyczny sposób? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) gdzie a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) …

2
Informacje Fishera w modelu hierarchicznym
Biorąc pod uwagę następujący hierarchicznego modelu X∼N( μ ,1),X∼N(μ,1), X \sim {\mathcal N}(\mu,1), a, w którym jest normalny. Czy istnieje sposób na uzyskanie dokładnego wyrażenia dla informacji Fishera o krańcowym rozkładzie danego . To znaczy, jaka jest informacja Fishera dla: Mogę uzyskać wyrażenie dla rozkładu brzeżnego danego , ale różnicowania …

2
Dlaczego matryca Fisher Information jest pozytywnie półfinałowa?
Niech . Matrycę informacji Fisher definiuje się jako:θ∈Rnθ∈Rn\theta \in R^{n} I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] Jak mogę udowodnić, że Matryca Informacyjna Fishera jest dodatnia półfinałowa?

2
Przykład przeora, który w przeciwieństwie do Jeffreysa, prowadzi do tylnej części ciała, która nie jest niezmienna
Odpowiadam „odpowiedź” na pytanie, które zadałem dwa tygodnie temu: Dlaczego wcześniejsza Jeffreys była przydatna? To było naprawdę pytanie (i nie miałem wtedy prawa do komentowania), więc mam nadzieję, że to będzie w porządku: W powyższym linku omówiono, że interesującą cechą wcześniejszego Jeffreysa jest to, że podczas ponownej parametryzacji modelu wynikowy …

2
Dlaczego dokładnie wykorzystano zaobserwowane informacje Fishera?
W standardowym ustawieniu maksymalnego prawdopodobieństwa (np. Próbka Y1,…,YnY1,…,YnY_{1}, \ldots, Y_{n} z pewnego rozkładu o gęstości )), aw przypadku poprawnie określonego modelu, informacje Fishera podaje:fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] gdzie oczekiwane jest rzeczywiste zagęszczenie, które wygenerowało dane. Czytałem, że zaobserwowałem informację Fishera J^(θ)=−∂2θ2lnfy(θ)J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) jest używana głównie, ponieważ …

2
Obserwowana matryca informacji jest spójnym estymatorem oczekiwanej matrycy informacji?
Próbuję udowodnić, że obserwowana matryca informacji oceniana przy mało spójnym estymatorze maksymalnego prawdopodobieństwa (MLE), jest słabo spójnym estymatorem oczekiwanej matrycy informacji. Jest to często cytowany wynik, ale nikt nie podaje odniesienia ani dowodu (wyczerpałem się, myślę, że pierwsze 20 stron wyników Google i podręczników statystyk)! Używając słabo spójnej sekwencji MLE, …

1
Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?
Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Determinant informacji Fishera
(Podobne pytanie zadałem na stronie math.se. ) W geometrii informacji wyznacznikiem macierzy informacji Fishera jest naturalna postać objętości na rozmaitości statystycznej, więc ma dobrą interpretację geometryczną. Na przykład fakt, że pojawia się w definicji Jeffreys przed, jest związany z jej niezmiennością przy reparametryzacjach, która jest (imho) właściwością geometryczną. Ale co …

1
Warunki istnienia matrycy informacyjnej Fishera
Różne podręczniki przytaczają różne warunki istnienia matrycy informacyjnej Fishera. Kilka takich warunków wymieniono poniżej, z których każdy pojawia się w niektórych, ale nie we wszystkich, definicjach „matrycy informacji Fishera”. Czy istnieje standardowy, minimalny zestaw warunków? Z 5 poniższych warunków, które można usunąć? Jeśli można spełnić jeden z warunków, dlaczego według …

2
Determinator macierzy informacji Fishera dla modelu nadparametryzowanego
Rozważ losową zmienną Bernoulliego X∈{0,1}X∈{0,1}X\in\{0,1\} z parametrem θθ\theta(prawdopodobieństwo sukcesu). Funkcja prawdopodobieństwa i informacje Fishera (a1×11×11 \times 1 macierz) to: L.1( θ ; X)ja1( θ )= p (X| θ ) =θX( 1 - θ)1 - X= detja1( θ ) =1θ ( 1 - θ )L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} …

1
Który model głębokiego uczenia może klasyfikować kategorie, które nie wykluczają się wzajemnie
Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej warstwie. Dlatego mogę użyć 2 modelowych sieci …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.