Jaka jest różnica między losowym polem Markowa a warunkowym polem losowym?

19

Jeśli naprawię wartości zaobserwowanych węzłów MRF, czy stanie się to CRF?

— ktoś
źródło

Zobacz także: Czy każde warunkowe pole losowe jest po prostu polem losowym Markowa o ograniczonej strukturze?

— Martin Thoma,

I Co to jest dokładnie różnica między MRF i CRF

— Martin Thoma

I Jaka jest różnica między Markowa pól losowych (MRF) jak i warunkowego pól losowych (CRF) jest? Kiedy powinienem używać jednego na drugim?

— Martin Thoma,

11

Ok, sam znalazłem odpowiedź:

Conditinal Random Fields (CRF) to specjalny przypadek Markov Random Fields (MRF).

1.5.4 Warunkowe pole losowe

Warunkowe pole losowe (CRF) jest formą MRF, która definiuje a posterior dla zmiennych x podanych danych z, tak jak w przypadku ukrytego MRF powyżej. Jednak w przeciwieństwie do ukrytego MRF, rozkład na czynniki w rozkładzie danych P (x | z) i wcześniejszym P (x) nie jest wyraźny [288]. Umożliwia to zapisywanie złożonych zależności x na z bezpośrednio w rozkładzie bocznym, bez wyraźnego podziału na czynniki. (Biorąc pod uwagę P (x | z), takie faktoryzacje zawsze istnieją, jednak - nieskończenie wiele z nich w rzeczywistości - więc nie ma sugestii, że CRF jest bardziej ogólny niż ukryty MRF, tylko że wygodniej jest sobie z nim poradzić .)

Źródło: Blake, Kohli i Rother: Losowe pola Markowa do przetwarzania obrazu i obrazu. 2011 r.

Warunkowe pole losowe lub CRF (Lafferty i in. 2001), czasem dyskryminacyjne pole losowe (Kumar i Hebert 2003), jest tylko wersją MRF, w której wszystkie potencjały kliki są uwarunkowane cechami wejściowymi: [...]

Przewaga CRF nad MRF jest analogiczna do przewagi dyskryminującego klasyfikatora nad generatywnym klasyfikatorem (patrz rozdział 8.6), a mianowicie nie musimy „marnować zasobów” na modelowanie rzeczy, które zawsze obserwujemy. [...]

Wadą CRF w porównaniu z MRF jest to, że wymagają one oznakowanych danych szkoleniowych i wolniej trenują [...]

Źródło: Kevin P. Murphy: Uczenie maszynowe: perspektywa probabilistyczna

Odpowiadając na moje pytanie:

Jeśli naprawię wartości zaobserwowanych węzłów MRF, czy stanie się to CRF?

Tak. Naprawianie wartości jest takie samo, jak warunkowanie ich. Należy jednak pamiętać, że istnieją również różnice w treningu.

Bardzo mi pomogło obejrzenie wielu wykładów na temat PGM (probabilistycznych modeli graficznych) na kursach.

— Martin Thoma
źródło

0

MRF vs sieci Bayesa : Mówiąc bezprecedensowo (ale normalnie) , istnieją dwa rodzaje modeli graficznych: niekierowane modele graficzne i ukierunkowane modele graficzne (jeszcze jeden typ, na przykład wykres Tannera). Pierwszy z nich znany jest również jako Markov Random Fields / Markov network, a później Bayes net / Bayesian network. (Czasami założenia niezależności w obu przypadkach można przedstawić za pomocą wykresów akordowych)

Markov implikuje sposób, w jaki rozkłada na czynniki pierwsze, a pole losowe oznacza określony rozkład między tymi zdefiniowanymi przez model bezkierunkowy.

CRF $\in$ MRF : Gdy obserwuje się niektóre zmienne, możemy zastosować tę samą reprezentację grafu niekierowanego (jak grafy niekierowane) i parametryzację, aby zakodować rozkład warunkowy $P(Y|X)$ gdzie $Y$ jest zbiorem zmiennych docelowych, a $X$ jest (rozłączny ) zestaw obserwowanych zmiennych.

I jedyna różnica polega na tym, że dla standardowej sieci Markowa termin normalizacyjny sumuje się przez X i Y, ale w przypadku CRF termin sumuje się tylko przez Y.

Odniesienie:

Niekierowane modele graficzne (pola losowe Markowa)
Probabilistyczne modele graficzne - zasady i techniki (2009, The MIT Press)
Losowe pola Markowa

— Lerner Zhang
źródło

0

Porównajmy wnioskowanie warunkowe w ramach MRF z modelowaniem za pomocą CRF, opierając się na definicjach po drodze, a następnie odnieś się do pierwotnego pytania.

MRF

$G$

$G$
$G$ $V_i$ $V_j$ $V_i$ $V_j$ $\mathcal{B}_i$ $P(\{V_i\})$ $G$

Wnioskowanie warunkowe w ramach MRF

Ponieważ MRF reprezentuje wspólny rozkład wielu zmiennych, który jest zgodny z ograniczeniami Markowa, możemy obliczyć warunkowe rozkłady prawdopodobieństwa, biorąc pod uwagę zaobserwowane wartości niektórych zmiennych.

Na przykład, jeśli mam wspólny rozkład między czterema zmiennymi losowymi: IsRaining, SprinklerOn, SidewalkWet i GrassWet, to w poniedziałek mógłbym chcieć wywnioskować rozkład prawdopodobieństwa połączenia dla IsRaining i SprinklerOn, biorąc pod uwagę, że zaobserwowałem SidewalkWet = False i GrassWet = Prawdziwe. We wtorek mógłbym chcieć wywnioskować wspólny rozkład prawdopodobieństwa dla IsRaining i SprinklerOn, biorąc pod uwagę, że zaobserwowałem SidewalkWet = True i GrassWet = True.

Innymi słowy, możemy użyć tego samego modelu MRF do wnioskowania w tych dwóch różnych sytuacjach, ale nie powiedzielibyśmy, że zmieniliśmy model. W rzeczywistości, chociaż obserwowaliśmy SidewalkWet i GrassWet w obu opisanych tutaj przypadkach, sam MRF nie ma „obserwowanych zmiennych” per se - wszystkie zmienne mają ten sam status w oczach MRF, więc MRF modeluje również, np. wspólna dystrybucja SidewalkWet i GrassWet.

CRF

$G$

$G$ $\{X_i\}_{i=1}^n$ $\{Y_i\}_{i=1}^m$
$P(\{Y_i\}_{i=1}^m|\{X_i\}_{i=1}^n)$ $G$

Różnica

$G$

wyznacza podzbiór zmiennych jako „obserwowane”
definiuje jedynie rozkład warunkowy dla nieobserwowanych danych zmiennych; nie modeluje prawdopodobieństwa zaobserwowanych zmiennych (jeśli rozkłady wyrażone są parametrami, jest to często postrzegane jako korzyść, ponieważ parametry nie są marnowane na wyjaśnianie prawdopodobieństwa rzeczy, które zawsze będą znane)
$G$

$\{X_i\}$ $G$ $G'$ $\{Y_i\}$ $\{Y_i\}$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

Przykład

$Y_i$ $X_1, X_2, ... X_{n-1}$ $X_n$

$G$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

Wniosek

$G$ $G$ $G$ $G$ $G$ $G$

Oprócz potencjalnych oszczędności parametrów modelu, zwiększonej ekspresji modelu warunkowego i zachowania wydajności wnioskowania, ostatnią ważną kwestią dotyczącą receptury CRF jest to, że w przypadku modeli dyskretnych (i dużej części modeli niedyskretnych), pomimo ekspresyjność rodziny CRF, prawdopodobieństwo logarytmiczne można wyrazić jako funkcję wypukłą parametrów funkcji, umożliwiającą globalną optymalizację z opadaniem gradientu.

Zobacz także: oryginalny papier CRF i ten samouczek

— użytkownik3780389
źródło