Pytania otagowane jako maximum-likelihood

metoda szacowania parametrów modelu statystycznego poprzez wybranie wartości parametru, która optymalizuje prawdopodobieństwo obserwacji danej próbki.

1
Prawdopodobieństwo krzyżowe lub prawdopodobieństwo dziennika w warstwie wyjściowej
Przeczytałem tę stronę: http://neuralnetworksanddeeplearning.com/chap3.html i powiedział, że sigmoidalna warstwa wyjściowa z entropią krzyżową jest dość podobna do warstwy wyjściowej softmax z prawdopodobieństwem logarytmicznym. co się stanie, jeśli użyję sigmoid z logarytmem prawdopodobieństwa lub softmax z entropią krzyżową w warstwie wyjściowej? czy to w porządku? ponieważ widzę, że istnieje niewielka różnica …

5
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
Jakiego rodzaju informacjami są informacje Fishera?
Załóżmy, że mamy losową zmienną . Jeśli jest parametrem prawdziwym, funkcja prawdopodobieństwa powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada leżąca u podstaw estymatora maksymalnego prawdopodobieństwa.X∼ f( x | θ )X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Jak rozumiem, informacje Fishera są zdefiniowane jako ja( θ ) = E [ ( …

1
Estymatory maksymalnego prawdopodobieństwa dla skróconego rozkładu
Rozważmy NNN niezależnych próbek SSS otrzymano z losowej zmiennej XXX , który jest przyjmowany śledzić skróconą dystrybucji (np obcięty rozkład normalny ) znanego (Finite) minimalne i maksymalne wartości aaa i bbb , lecz z nieznanych parametrów μμ\mu i σ2σ2\sigma^2 . Jeśli XXX następnie non-obcięte rozkładzie estymatorów największej wiarygodności ľ i …


5
Szacowanie maksymalnego prawdopodobieństwa - dlaczego jest używane, mimo że w wielu przypadkach jest stronnicze
Szacowanie maksymalnego prawdopodobieństwa często skutkuje tendencyjnymi estymatorami (np. Jego oszacowanie dla wariancji próby jest tendencyjne dla rozkładu Gaussa). Co zatem sprawia, że ​​jest tak popularny? Dlaczego dokładnie jest tak często używany? Co w szczególności czyni go lepszym niż alternatywne podejście - metoda chwil? Zauważyłem również, że dla Gaussa proste skalowanie …

3
Intuicyjne rozumowanie stojące za stronniczymi estymatorami największej wiarygodności
Mam wątpliwości co do stronniczości estymatorów maksymalnego prawdopodobieństwa (ML). Matematyka całej koncepcji jest dla mnie dość jasna, ale nie mogę zrozumieć intuicyjnego uzasadnienia. Biorąc pod uwagę pewien zestaw danych, który zawiera próbki z rozkładu, który sam jest funkcją parametru, który chcemy oszacować, estymator ML daje wartość parametru, który najprawdopodobniej wygeneruje …

2
Kiedy powinienem * nie * korzystać z funkcji nlm R dla MLE?
Natknąłem się na kilka przewodników sugerujących, że używam nlm R do oszacowania maksymalnego prawdopodobieństwa. Ale żadna z nich (w tym dokumentacja R ) nie zawiera wielu teoretycznych wskazówek dotyczących tego, kiedy używać lub nie korzystać z tej funkcji. O ile mi wiadomo, nlm po prostu wykonuje opadanie gradientu wzdłuż linii …

2
Czy możemy użyć MLE do oszacowania wag sieci neuronowej?
Właśnie zacząłem uczyć się o statystykach i modelach. Obecnie rozumiem, że używamy MLE do oszacowania najlepszych parametrów dla modelu. Kiedy jednak próbuję zrozumieć, jak działają sieci neuronowe, wydaje się, że zwykle używają innego podejścia do oszacowania parametrów. Dlaczego nie używamy MLE lub czy w ogóle można korzystać z MLE?

4
Czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu MLE?
Zastanawiam się, czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu z oszacowaniem maksymalnego (log-) prawdopodobieństwa? Innymi słowy, czy istnieje jakiś rozkład i niektóre jego parametry, dla których problem MLE nie ma maksymalizatora? Moje pytanie pochodzi od twierdzenia inżyniera, że ​​funkcja kosztu (prawdopodobieństwo lub logarytmiczne prawdopodobieństwo, nie jestem pewien, który był zamierzony) …

4
Oszacowanie parametrów rozkładu t-Studenta
Jakie są estymatory największego prawdopodobieństwa dla parametrów rozkładu t Studenta? Czy istnieją w formie zamkniętej? Szybkie wyszukiwanie w Google nie dało mi żadnych wyników. Dzisiaj interesuje mnie przypadek jednowymiarowy, ale prawdopodobnie będę musiał rozszerzyć model na wiele wymiarów. EDYCJA: Właściwie najbardziej interesuje mnie lokalizacja i parametry skali. Na razie mogę …


2
Jak uzyskać funkcję prawdopodobieństwa dla rozkładu dwumianowego do oszacowania parametru?
Według Miller i Freund's Probability and Statistics for Engineers, 8ed (str. 217–218), funkcję prawdopodobieństwa, która ma zostać zmaksymalizowana dla rozkładu dwumianowego (próby Bernoulliego) podano jako L ( p ) = ∏ni = 1pxja( 1 - p )1 - xjaL(p)=∏i=1npxi(1−p)1−xiL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} Jak dojść do tego równania? Wydaje mi się dość …

1
W R, biorąc pod uwagę wynik optymalizacji z macierzą hessianową, jak obliczyć przedziały ufności parametrów za pomocą macierzy hessianowej?
Biorąc pod uwagę wynik optymalizacji z macierzą hessianową, jak obliczyć przedziały ufności parametrów za pomocą macierzy hessianowej? fit<-optim(..., hessian=T) hessian<-fit$hessian Najbardziej interesuje mnie kontekst analizy maksymalnego prawdopodobieństwa, ale ciekawy jestem, czy można rozszerzyć tę metodę.

4
Jak zapewnić właściwości macierzy kowariancji przy dopasowywaniu wielowymiarowego modelu normalnego przy maksymalnym prawdopodobieństwie?
Załóżmy, że mam następujący model yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i where yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i is a vector of explanatory variables, θθ\theta is the parameters of non-linear function fff and εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma), where ΣΣ\Sigma naturally is K×KK×KK\times K matrix. The goal is the usual to estimate θθ\theta and ΣΣ\Sigma. The obvious choice is maximum …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.