Staram się dobrze zrozumieć algorytm EM, aby móc go wdrożyć i używać. Spędziłem cały dzień czytając teorię i artykuł, w którym EM służy do śledzenia samolotu z wykorzystaniem informacji o położeniu pochodzących z radaru. Szczerze mówiąc, nie sądzę, że w pełni rozumiem leżącą u podstaw ideę. Czy ktoś może wskazać …
Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam: k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste. Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w …
Czytałem gdzieś, że metoda Variational Bayes jest uogólnieniem algorytmu EM. Rzeczywiście, iteracyjne części algorytmów są bardzo podobne. Aby przetestować, czy algorytm EM jest specjalną wersją Variational Bayes, próbowałem: YYY to dane, to zbiór ukrytych zmiennych, a to parametry. W Variational Bayes, które wykonujemy, możemy dokonać przybliżenia, tak aby . Gdzie …
Przeczytałem kilka wyjaśnień algorytmu EM (np. Z Bishop's Pattern Recognition and Machine Learning oraz z Roger i Gerolami First Course on Machine Learning). Wyprowadzenie EM jest w porządku, rozumiem to. Rozumiem również, dlaczego algorytm obejmuje coś: na każdym etapie poprawiamy wynik, a prawdopodobieństwo jest ograniczone przez 1,0, więc używając prostego …
Uwaga: wysyłam pytanie od mojego byłego studenta, który nie jest w stanie samodzielnie napisać ze względów technicznych. Biorąc pod uwagę próbkę z rozkładu Weibulla z pdf czy użyteczne brak reprezentacji zmiennej a zatem powiązany algorytm EM (maksymalizacja oczekiwań), którego można użyć do znalezienia MLE zamiast prostego optymalizacja numeryczna?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = …
Z tego, co niewiele wiem, algorytm EM można wykorzystać do znalezienia maksymalnego prawdopodobieństwa przy zerowaniu pochodnych cząstkowych w odniesieniu do parametrów prawdopodobieństwa daje zestaw równań, których nie można rozwiązać analitycznie. Ale czy algorytm EM jest potrzebny zamiast jakiejś techniki numerycznej, aby znaleźć maksimum prawdopodobieństwa w odniesieniu do ograniczenia zbioru wspomnianych …
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
W podejściu algorytmu EM wykorzystujemy nierówność Jensena do uzyskania logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlogp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz θ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz Wszystko, co czytam EM, po prostu go rozwala, ale zawsze czułem się nieswojo, nie mając wyjaśnienia, dlaczego algorytm EM powstaje naturalnie. Rozumiem, …
Chcę, aby zaimplementować algorytm EM ręcznie, a następnie porównać je do wyników działań normalmixEMz mixtoolsopakowania. Oczywiście byłbym szczęśliwy, gdyby oba doprowadziły do tych samych rezultatów. Głównym odniesieniem jest Geoffrey McLachlan (2000), Finite Mixture Models . Mam gęstość mieszanki dwóch Gaussów, w ogólnej formie, logarytmiczne prawdopodobieństwo podaje (McLachlan strona 48): logL.do( …
Rozważ logarytmiczne prawdopodobieństwo mieszanki Gaussów: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} Zastanawiałem się, dlaczego trudno było obliczeniowo bezpośrednio zmaksymalizować to równanie? Szukałem albo wyraźnej, solidnej intuicji, dlaczego powinno być oczywiste, że jest to trudne, a może bardziej rygorystyczne wyjaśnienie, dlaczego jest trudne. Czy ten problem jest NP-zupełny, …
Próbuję nauczyć się korzystać z losowych pól Markowa do segmentowania regionów na obrazie. Nie rozumiem niektórych parametrów w MRF ani tego, dlaczego maksymalizacja oczekiwań, którą wykonuję, czasami nie jest zbieżna z rozwiązaniem. Zaczynając od twierdzenia Bayesa, mam , gdzie y jest wartością skali szarości piksela, a x jest etykietą klasy. …
Dla niewtajemniczonych procedura EM wydaje się mniej więcej czarną magią. Oszacuj parametry HMM (na przykład) przy użyciu nadzorowanych danych. Następnie zdekoduj nieoznaczone dane, używając „wstecz” do „zliczania” zdarzeń tak, jakby dane były oznaczone mniej więcej. Dlaczego to sprawia, że model jest lepszy? Wiem coś o matematyce, ale wciąż pragnę jakiegoś …
Istnieje wiele literatury podkreślającej metodę maksymalizacji oczekiwań na modelach mieszanin (mieszanina modelu Gaussa, model ukrytego Markowa itp.). Dlaczego EM jest ważny? EM to tylko sposób na optymalizację i nie jest szeroko stosowany jako metoda oparta na gradiencie (metoda przyzwoitego gradientu lub metoda newtona / quasi-newtona) lub inna metoda bez gradientu …
Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny! Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie. Czy ktoś wie, dlaczego …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.