Pytania otagowane jako expectation-maximization

Algorytm optymalizacji często używany do estymacji maksymalnej wiarygodności w przypadku braku danych.

9
Numeryczny przykład zrozumienia maksymalizacji oczekiwań
Staram się dobrze zrozumieć algorytm EM, aby móc go wdrożyć i używać. Spędziłem cały dzień czytając teorię i artykuł, w którym EM służy do śledzenia samolotu z wykorzystaniem informacji o położeniu pochodzących z radaru. Szczerze mówiąc, nie sądzę, że w pełni rozumiem leżącą u podstaw ideę. Czy ktoś może wskazać …

3
Grupowanie za pomocą K-Means i EM: w jaki sposób są one powiązane?
Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam: k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste. Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w …


1
Związek między wariacyjnymi Bayes i EM
Czytałem gdzieś, że metoda Variational Bayes jest uogólnieniem algorytmu EM. Rzeczywiście, iteracyjne części algorytmów są bardzo podobne. Aby przetestować, czy algorytm EM jest specjalną wersją Variational Bayes, próbowałem: YYY to dane, to zbiór ukrytych zmiennych, a to parametry. W Variational Bayes, które wykonujemy, możemy dokonać przybliżenia, tak aby . Gdzie …

2
Dlaczego algorytm Expectation Maximization gwarantuje osiągnięcie zbieżności z lokalnym optimum?
Przeczytałem kilka wyjaśnień algorytmu EM (np. Z Bishop's Pattern Recognition and Machine Learning oraz z Roger i Gerolami First Course on Machine Learning). Wyprowadzenie EM jest w porządku, rozumiem to. Rozumiem również, dlaczego algorytm obejmuje coś: na każdym etapie poprawiamy wynik, a prawdopodobieństwo jest ograniczone przez 1,0, więc używając prostego …

4
Oszacowanie maksymalnego prawdopodobieństwa EM dla rozkładu Weibulla
Uwaga: wysyłam pytanie od mojego byłego studenta, który nie jest w stanie samodzielnie napisać ze względów technicznych. Biorąc pod uwagę próbkę z rozkładu Weibulla z pdf czy użyteczne brak reprezentacji zmiennej a zatem powiązany algorytm EM (maksymalizacja oczekiwań), którego można użyć do znalezienia MLE zamiast prostego optymalizacja numeryczna?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = …

3
Dlaczego stosuje się algorytm maksymalizacji oczekiwań?
Z tego, co niewiele wiem, algorytm EM można wykorzystać do znalezienia maksymalnego prawdopodobieństwa przy zerowaniu pochodnych cząstkowych w odniesieniu do parametrów prawdopodobieństwa daje zestaw równań, których nie można rozwiązać analitycznie. Ale czy algorytm EM jest potrzebny zamiast jakiejś techniki numerycznej, aby znaleźć maksimum prawdopodobieństwa w odniesieniu do ograniczenia zbioru wspomnianych …

4
Jak rzutować nowy wektor na przestrzeń PCA?
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

5
Motywacja algorytmu maksymalizacji oczekiwań
W podejściu algorytmu EM wykorzystujemy nierówność Jensena do uzyskania logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz θ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz Wszystko, co czytam EM, po prostu go rozwala, ale zawsze czułem się nieswojo, nie mając wyjaśnienia, dlaczego algorytm EM powstaje naturalnie. Rozumiem, …

2
Algorytm EM ręcznie wdrożony
Chcę, aby zaimplementować algorytm EM ręcznie, a następnie porównać je do wyników działań normalmixEMz mixtoolsopakowania. Oczywiście byłbym szczęśliwy, gdyby oba doprowadziły do ​​tych samych rezultatów. Głównym odniesieniem jest Geoffrey McLachlan (2000), Finite Mixture Models . Mam gęstość mieszanki dwóch Gaussów, w ogólnej formie, logarytmiczne prawdopodobieństwo podaje (McLachlan strona 48): logL.do( …

2
Dlaczego optymalizacja mieszanki Gaussa bezpośrednio jest trudna obliczeniowo?
Rozważ logarytmiczne prawdopodobieństwo mieszanki Gaussów: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} Zastanawiałem się, dlaczego trudno było obliczeniowo bezpośrednio zmaksymalizować to równanie? Szukałem albo wyraźnej, solidnej intuicji, dlaczego powinno być oczywiste, że jest to trudne, a może bardziej rygorystyczne wyjaśnienie, dlaczego jest trudne. Czy ten problem jest NP-zupełny, …

1
Szkolenie podstawowego pola losowego Markowa do klasyfikowania pikseli na obrazie
Próbuję nauczyć się korzystać z losowych pól Markowa do segmentowania regionów na obrazie. Nie rozumiem niektórych parametrów w MRF ani tego, dlaczego maksymalizacja oczekiwań, którą wykonuję, czasami nie jest zbieżna z rozwiązaniem. Zaczynając od twierdzenia Bayesa, mam , gdzie y jest wartością skali szarości piksela, a x jest etykietą klasy. …

1
EM, czy istnieje intuicyjne wyjaśnienie?
Dla niewtajemniczonych procedura EM wydaje się mniej więcej czarną magią. Oszacuj parametry HMM (na przykład) przy użyciu nadzorowanych danych. Następnie zdekoduj nieoznaczone dane, używając „wstecz” do „zliczania” zdarzeń tak, jakby dane były oznaczone mniej więcej. Dlaczego to sprawia, że ​​model jest lepszy? Wiem coś o matematyce, ale wciąż pragnę jakiegoś …

2
Dlaczego maksymalizacja oczekiwań jest ważna dla modeli mieszanin?
Istnieje wiele literatury podkreślającej metodę maksymalizacji oczekiwań na modelach mieszanin (mieszanina modelu Gaussa, model ukrytego Markowa itp.). Dlaczego EM jest ważny? EM to tylko sposób na optymalizację i nie jest szeroko stosowany jako metoda oparta na gradiencie (metoda przyzwoitego gradientu lub metoda newtona / quasi-newtona) lub inna metoda bez gradientu …

2
Dlaczego wartość k-średnich nie jest zoptymalizowana przy użyciu opadania gradientu?
Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.