Rozbieżność Kullbacka-Leiblera nie jest właściwością metryczną, ponieważ nie jest symetryczna, a także nie spełnia nierówności trójkąta. Zatem „role” odgrywane przez dwie dystrybucje są różne i ważne jest, aby rozdzielić te role zgodnie z badanym zjawiskiem w świecie rzeczywistym.
Kiedy piszemy (OP obliczył wyrażenie przy użyciu logarytmów base-2)
K(P||Q)=∑ilog2(pi/qi)pi
uważamy rozkład za „rozkład docelowy” (zwykle uważany za rozkład rzeczywisty), który przybliżamy za pomocą rozkładu Q.PQ
Teraz,
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
gdzie jest entropią rozkładu ShannonaH(P) a - E P ( ln ( Q ) ) nazywa się „entropią krzyżową P i Q ” - również niesymetryczną.P−EP(ln(Q))PQ
Pisanie
K(P||Q)=H(P,Q)−H(P)
P
Zatem nie , dywergencji KL lepiej nie należy interpretować jako „miary odległości” między rozkładami, ale raczej jako miarę wzrostu entropii z powodu zastosowania przybliżenia do rozkładu rzeczywistego, a nie samego rozkładu rzeczywistego .
Jesteśmy więc w krainie teorii informacji. Aby usłyszeć od mistrzów (Cover & Thomas) ”
PH(P)QH(P)+K(P||Q)
Ci sami mądrzy ludzie mówią
... nie jest to prawdziwa odległość między rozkładami, ponieważ nie jest symetryczna i nie spełnia nierówności trójkąta. Niemniej jednak często warto myśleć o względnej entropii jako „odległości” między rozkładami.
Ale to drugie podejście jest przydatne głównie, gdy próbuje się zminimalizować rozbieżność KL w celu zoptymalizowania niektórych procedur szacowania. Do interpretacji jego wartości liczbowej per se nie jest ona użyteczna i należy preferować podejście „wzrostu entropii”.
Dla określonych rozkładów pytania (zawsze przy użyciu logarytmów base-2)
K(P||Q)=0.49282,H(P)=1.9486
Innymi słowy, potrzebujesz 25% więcej bitów, aby opisać sytuację, jeśli zamierzasz użyć QP