Przeczytałem tę stronę: http://neuralnetworksanddeeplearning.com/chap3.html i powiedział, że sigmoidalna warstwa wyjściowa z entropią krzyżową jest dość podobna do warstwy wyjściowej softmax z prawdopodobieństwem logarytmicznym. co się stanie, jeśli użyję sigmoid z logarytmem prawdopodobieństwa lub softmax z entropią krzyżową w warstwie wyjściowej? czy to w porządku? ponieważ widzę, że istnieje niewielka różnica …
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Załóżmy, że mamy losową zmienną . Jeśli jest parametrem prawdziwym, funkcja prawdopodobieństwa powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada leżąca u podstaw estymatora maksymalnego prawdopodobieństwa.X∼ f( x | θ )X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Jak rozumiem, informacje Fishera są zdefiniowane jako ja( θ ) = E [ ( …
Rozważmy NNN niezależnych próbek SSS otrzymano z losowej zmiennej XXX , który jest przyjmowany śledzić skróconą dystrybucji (np obcięty rozkład normalny ) znanego (Finite) minimalne i maksymalne wartości aaa i bbb , lecz z nieznanych parametrów μμ\mu i σ2σ2\sigma^2 . Jeśli XXX następnie non-obcięte rozkładzie estymatorów największej wiarygodności ľ i …
Słyszałem o prawdopodobieństwie empirycznym Owena, ale do niedawna nie zwracałem na to uwagi, dopóki nie natknąłem się na nie w interesującej pracy ( Mengersen i in. 2012 ). W moich wysiłków, aby zrozumieć, jakie zebrała, że prawdopodobieństwo obserwowanego danych jest reprezentowana jako , gdzie ∑ i p i = 1 …
Szacowanie maksymalnego prawdopodobieństwa często skutkuje tendencyjnymi estymatorami (np. Jego oszacowanie dla wariancji próby jest tendencyjne dla rozkładu Gaussa). Co zatem sprawia, że jest tak popularny? Dlaczego dokładnie jest tak często używany? Co w szczególności czyni go lepszym niż alternatywne podejście - metoda chwil? Zauważyłem również, że dla Gaussa proste skalowanie …
Mam wątpliwości co do stronniczości estymatorów maksymalnego prawdopodobieństwa (ML). Matematyka całej koncepcji jest dla mnie dość jasna, ale nie mogę zrozumieć intuicyjnego uzasadnienia. Biorąc pod uwagę pewien zestaw danych, który zawiera próbki z rozkładu, który sam jest funkcją parametru, który chcemy oszacować, estymator ML daje wartość parametru, który najprawdopodobniej wygeneruje …
Natknąłem się na kilka przewodników sugerujących, że używam nlm R do oszacowania maksymalnego prawdopodobieństwa. Ale żadna z nich (w tym dokumentacja R ) nie zawiera wielu teoretycznych wskazówek dotyczących tego, kiedy używać lub nie korzystać z tej funkcji. O ile mi wiadomo, nlm po prostu wykonuje opadanie gradientu wzdłuż linii …
Właśnie zacząłem uczyć się o statystykach i modelach. Obecnie rozumiem, że używamy MLE do oszacowania najlepszych parametrów dla modelu. Kiedy jednak próbuję zrozumieć, jak działają sieci neuronowe, wydaje się, że zwykle używają innego podejścia do oszacowania parametrów. Dlaczego nie używamy MLE lub czy w ogóle można korzystać z MLE?
Zastanawiam się, czy zawsze istnieje maksymalizator dla jakiegokolwiek problemu z oszacowaniem maksymalnego (log-) prawdopodobieństwa? Innymi słowy, czy istnieje jakiś rozkład i niektóre jego parametry, dla których problem MLE nie ma maksymalizatora? Moje pytanie pochodzi od twierdzenia inżyniera, że funkcja kosztu (prawdopodobieństwo lub logarytmiczne prawdopodobieństwo, nie jestem pewien, który był zamierzony) …
Jakie są estymatory największego prawdopodobieństwa dla parametrów rozkładu t Studenta? Czy istnieją w formie zamkniętej? Szybkie wyszukiwanie w Google nie dało mi żadnych wyników. Dzisiaj interesuje mnie przypadek jednowymiarowy, ale prawdopodobnie będę musiał rozszerzyć model na wiele wymiarów. EDYCJA: Właściwie najbardziej interesuje mnie lokalizacja i parametry skali. Na razie mogę …
Znam regularne problemy, jeśli mamy najlepszy regularny obiektywny estymator, musi to być estymator maksymalnego prawdopodobieństwa (MLE). Ale ogólnie, jeśli mamy obiektywny MLE, czy byłby to również najlepszy obiektywny estymator (a może powinienem nazwać go UMVUE, o ile ma najmniejszą wariancję)?
Według Miller i Freund's Probability and Statistics for Engineers, 8ed (str. 217–218), funkcję prawdopodobieństwa, która ma zostać zmaksymalizowana dla rozkładu dwumianowego (próby Bernoulliego) podano jako L ( p ) = ∏ni = 1pxja( 1 - p )1 - xjaL(p)=∏i=1npxi(1−p)1−xiL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} Jak dojść do tego równania? Wydaje mi się dość …
Biorąc pod uwagę wynik optymalizacji z macierzą hessianową, jak obliczyć przedziały ufności parametrów za pomocą macierzy hessianowej? fit<-optim(..., hessian=T) hessian<-fit$hessian Najbardziej interesuje mnie kontekst analizy maksymalnego prawdopodobieństwa, ale ciekawy jestem, czy można rozszerzyć tę metodę.
Załóżmy, że mam następujący model yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i where yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i is a vector of explanatory variables, θθ\theta is the parameters of non-linear function fff and εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma), where ΣΣ\Sigma naturally is K×KK×KK\times K matrix. The goal is the usual to estimate θθ\theta and ΣΣ\Sigma. The obvious choice is maximum …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.