Znaczenie początkowych probabilitów przejścia w ukrytym modelu Markowa

11

Jakie są zalety podania pewnych wartości początkowych prawdopodobieństwom przejścia w Ukrytym Modelu Markowa? W końcu system się ich nauczy, więc po co podawać wartości inne niż losowe? Czy algorytm bazowy robi różnicę, taką jak Baum – Welch?

Jeśli bardzo dokładnie znam prawdopodobieństwa przejścia na początku, a moim głównym celem jest przewidywanie prawdopodobieństw wyjściowych od stanu ukrytego do obserwacji, co byś mi doradził?

machine-learning expectation-maximization hidden-markov-model

— metdos
źródło

7

Baum-Welch to algorytm optymalizacyjny do obliczania estymatora największego prawdopodobieństwa. W przypadku ukrytych modeli Markowa powierzchnia prawdopodobieństwa może być dość brzydka iz pewnością nie jest wklęsła. Przy dobrych punktach początkowych algorytm może zbiegać się szybciej w kierunku MLE.

Jeśli znasz już prawdopodobieństwa przejścia i chcesz przewidzieć stany ukryte za pomocą algorytmu Viterbi, potrzebujesz prawdopodobieństwa przejścia. Jeśli już je znasz, nie ma potrzeby ich ponownej oceny za pomocą Baum-Welch. Ponowne oszacowanie jest obliczeniowo droższe niż prognoza.

— NRH
źródło

3

Niektóre materiały dotyczące wstępnych szacunków HMM podano w

Lawrence R. Rabiner (luty 1989). „Samouczek na temat ukrytych modeli Markowa i wybranych aplikacji do rozpoznawania mowy”. Postępowanie według IEEE 77 (2): 257–286. doi: 10.1109 / 5.18626 (sekcja VC)

Możesz także rzucić okiem na zestaw narzędzi do modelowania probabilistycznego dla Matlab / Octave , szczególnie funkcję hmmFitEm, w której możesz podać własny parametr początkowy modelu lub po prostu używając (opcja „nrandomRestarts”). Podczas korzystania z „nrandomRestarts” pierwszy model (na etapie początkowym) używa:

Dopasuj mieszaninę Gaussianów za pomocą MLE / MAP (przy użyciu EM) dla kontynuacji danych;
Dopasuj mieszaninę iloczynu dyskretnych rozkładów poprzez MLE / MAP (przy użyciu EM) dla dyskretnych danych;

drugi, trzeci model ... (na etapie początkowym) używa losowo zainicjowanych parametrów i jako wynik zbiega się wolniej z przeważnie niższymi wartościami Log Likelihood.

— Siergiej
źródło