Edycja: Ta odpowiedź opiera się na niepoprawnym założeniu, że prawdopodobieństwo podanych wartości krańcowych jest tylko funkcją prawdopodobieństw krańcowych i . Nadal o tym myślę.px,ypx=∑ypx,ypy=∑xpx,y
Następują złe rzeczy:
Jak wspomniano w komentarzu, problem ze znalezieniem „estymatora największego prawdopodobieństwa dla polega na tym, że nie jest on unikalny. Rozważmy na przykład przypadek z binarnymi i marginesami . Dwa estymatorypx,yX,YS1=S2=T1=T2=10
p=(120012),p=(14141414)
mają te same krańcowe prawdopodobieństwa i we wszystkich przypadkach, a zatem mają równe prawdopodobieństwo (oba z nich maksymalizują funkcję prawdopodobieństwa, jak można zweryfikować).pxpy
Rzeczywiście, bez względu na marginesy (o ile dwa z nich są niezerowe w każdym wymiarze), rozwiązanie maksymalnego prawdopodobieństwa nie jest unikalne. Udowodnię to w przypadku pliku binarnego. Niech będzie rozwiązaniem o najwyższym prawdopodobieństwie. Bez utraty ogólności załóżmy, że . Zatem ma te same marginesy, a zatem jest również rozwiązaniem o najwyższym prawdopodobieństwie.p=(acbd)0<a≤dp=(0c+ab+ad−a)
Jeśli chcesz dodatkowo zastosować ograniczenie maksymalnej entropii, otrzymujesz unikalne rozwiązanie, które, jak stwierdził F. Tussell, jest rozwiązaniem, w którym są niezależne. Możesz to zobaczyć w następujący sposób:X,Y
Entropia rozkładu to ; maksymalizacja z zastrzeżeniem i (równoważnie, gdzie i ) stosując mnożników Lagrange podaje równanie:H(p)=−∑x,ypx,ylogpx,y∑xpx,y=py∑ypx,y=pxg⃗ (p)=0gx(p)=∑ypx,y−pxgy(p)=∑xpx,y−py
∇H(p)=∑k∈X∪Yλk∇gk(p)
Wszystkie gradienty każdego wynoszą 1, więc współdziała togk
1−logpx,y=λx+λy⟹px,y=e1−λx−λy
plus oryginalne ograniczenia i . Możesz sprawdzić, czy jest to spełnione, gdy oraz , dając∑xpx,y=py∑ypx,y=pxe1/2−λx=pxe1/2−λy=py
px,y=pxpy.
maximum-entropy