Model probabilistyczny graficzny (PGM) jest formalizm wykres dla kompaktowo modelowania wspólny rozkład prawdopodobieństwa i (w) stosunki uzależnienia nad zestawem zmiennych losowych. PGM nazywa się siecią bayesowską, gdy kierowany jest wykres bazowy, a pole losowe sieci Markowa / Markowagdy bazowy wykres nie jest przekierowywany. Ogólnie rzecz biorąc, używasz tego pierwszego do modelowania wpływu probabilistycznego między zmiennymi, które mają wyraźną kierunkowość, w przeciwnym razie używasz drugiego; w obu wersjach PGM brak krawędzi na powiązanych wykresach reprezentuje warunkowe niezależności w zakodowanych rozkładach, chociaż ich dokładna semantyka jest różna. „Markow” w „sieci Markowa” odnosi się do ogólnego pojęcia niezależności warunkowej kodowanej przez PGM, że zbioru zmiennych losowych jest niezależnych od innych biorąc uwagę pewien zestaw „ważnych” zmiennych (nazwa techniczna to Markov koc ), tj. .xZAxdoxbp(xA|xB,xC)=p(xA|xB)
Proces Markowa jakikolwiek sposób stochastyczny , która spełni właściwość Markowa . Nacisk kładziony jest tutaj na zbiór (skalarnych) zmiennych losowych zwykle uważanych za indeksowane przez czas, które spełniają określony rodzaj warunkowej niezależności, tj. „Przyszłość jest niezależna od przeszłości biorąc pod uwagę teraźniejszość ”, z grubsza mówiąc . Jest to szczególny przypadek pojęcia „Markowa” zdefiniowanego przez PGM: po prostu weź zestaw i weź jako dowolny podzbiór i wywołaj poprzednią instrukcję{ Xt}X 1 , X 2 , X 3 , . . . P ( x T + 1 | x T , x T - 1 , . . . , x 1 ) = p ( x T + 1 | x T ) = { t + 1 } , B = { tX1, X2), X3), . . .p ( xt + 1| xt, xt - 1, . . . , x1) = p ( xt + 1| xt)A = { t + 1 } , B = { t }do{ T - 1 , T - 2 , . . . , 1 }p ( xZA| xb, xdo) =p ( xZA|xb) . Z tego wynika, że koc Markowa dowolnej zmiennej jest jego poprzednikiem .Xt + 1Xt
Dlatego możesz reprezentować proces Markowa za pomocą sieci bayesowskiej , jako łańcuch liniowy indeksowany czasem (dla uproszczenia rozważamy tutaj przypadek dyskretnego czasu / stanu; zdjęcie z książki Bishopa PRML):
Ten rodzaj sieci bayesowskiej jest znany jako dynamiczna sieć bayesowska . Ponieważ jest to sieć bayesowska (stąd PGM), można zastosować standardowe algorytmy PGM do wnioskowania probabilistycznego (podobnie jak algorytm sum-iloczyn, którego szczególnym przypadkiem są równania Chapmana-Kołmogorowa) i oszacowania parametrów (np. Maksymalne prawdopodobieństwo, które się gotuje aż do prostego liczenia) w łańcuchu. Przykładami tego są HMM i model języka n-gram.
Często widzisz schemat przedstawiający łańcuch Markowa taki jak ten
To nie jest PGM, ponieważ węzły nie są zmiennymi losowymi, ale elementami przestrzeni stanu łańcucha; krawędzie odpowiadają (niezerowym) prawdopodobieństwom przejściowym między dwoma kolejnymi stanami. Możesz również pomyśleć o tym wykresie jako opisującym CPT (tabela prawdopodobieństwa warunkowego) łańcucha PGM. Ten łańcuch Markowa koduje tylko stan świata przy każdym znaczniku czasu jako pojedynczą zmienną losową ( Nastrój ); co jeśli chcemy uchwycić inne interaktywne aspekty świata (takie jak Zdrowie i Dochód jakiejś osoby) i traktować jako wektor zmiennych losowychp ( Xt| Xt - 1)Xt( X( 1 )t, . . . X( D )t)? Tutaj mogą pomóc PGM (w szczególności dynamiczne sieci bayesowskie). Możemy modelować złożone rozkłady dla
przy użyciu warunkowej sieci bayesowskiej, zwykle zwanej 2TBN (2-krotna sieć bayesowska), którą można uważać za bardziej wyszukaną wersję prostej sieci bayesowskiej.p ( X( 1 )t, . . . X( D )t| X( 1 )t - 1, . . . X( D )t - 1)
TL; DR : sieć bayesowska jest rodzajem PGM (probabilistyczny model graficzny), który wykorzystuje ukierunkowany (acykliczny) wykres do reprezentowania rozkładu prawdopodobieństwa na czynniki i powiązanej warunkowej niezależności od zestawu zmiennych. Proces Markowa jest procesem stochastycznym (zwykle uważanym za zbiór zmiennych losowych) z właściwością „przyszłości niezależnej od przeszłości, biorąc pod uwagę teraźniejszość”; nacisk kładziony jest bardziej na badanie ewolucji pojedynczej losowej zmiennej „szablonowej” w czasie (często jako ). (Skalarowy) proces Markowa definiuje określoną właściwość warunkowej niezależnościXtt → ∞p ( xt + 1| xt, xt - 1, . . . , x1) = p ( xt + 1| xt)i dlatego mogą być w prosty sposób reprezentowane przez łańcuchową sieć bayesowską, podczas gdy dynamiczne sieci bayesowskie mogą wykorzystywać pełną moc reprezentacyjną PGM do modelowania interakcji między wieloma zmiennymi losowymi (tj. losowymi wektorami) w czasie; świetnym odniesieniem na ten temat jest rozdział 6 książki PGM Daphne Koller .