W jaki sposób log (p (x, y)) normalizuje punktowe wzajemne informacje?

9

Próbuję zrozumieć znormalizowaną formę punktowej wzajemnej informacji.

$npmi = \frac{pmi(x,y)}{log(p(x,y))}$

Dlaczego prawdopodobieństwo połączenia logarytmicznego normalizuje punktowe wzajemne informacje na poziomie [-1, 1]?

Punktowa wzajemna informacja to:

$pmi = log(\frac{p(x,y)}{p(x)p(y)})$

p (x, y) jest ograniczone przez [0, 1], więc log (p (x, y)) jest ograniczony przez (, 0). Wydaje się, że log (p (x, y)) powinien w jakiś sposób równoważyć zmiany w licznik, ale nie rozumiem dokładnie jak. Przypomina mi również entropię $h=-log(p(x))$ , ale znowu nie rozumiem dokładnego związku.

entropy information-theory mutual-information

— 2 centy
źródło

Na początek punktowa informacja wzajemna używa logarytmu (nie jestem pewien, czy jest to literówka, czy używasz innej ilości ).

— Piotr Migdal

12

Z pozycji w Wikipedii na temat punktowych wzajemnych informacji :

Punktową wzajemną informację można znormalizować między [-1, + 1], co powoduje -1 (w granicy), że nigdy nie występuje razem, 0 dla niezależności i +1 dla całkowitego współwystąpienia.

Dlaczego tak się dzieje? Cóż, definicja punktowej wzajemnej informacji to

p m ja \equiv \log [\frac{p (x, y)}{p (x) p (y)}] = \log p (x, y) - \log p (x) - \log p (y),

$pmi \equiv \log \left[ \frac{p(x,y)}{p(x)p(y)} \right] = \log p(x,y) - \log p(x) - \log p(y),$

podczas gdy dla znormalizowanych punktowych informacji wzajemnych jest:

n p m ja \equiv \frac{p m ja}{- \log p (x, y)} = \frac{\log [p (x) p (y)]}{\log p (x, y)} - 1.

$npmi \equiv \frac{pmi}{-\log p(x,y)} = \frac{\log[ p(x) p(y)]}{\log p(x,y)} - 1.$

Kiedy są:

brak współwystępowania, $\log p(x,y)\to -\infty$ , więc nmpi wynosi -1,
przypadkowe współwystępowanie, $\log p(x,y)= \log[p(x) p(y)]$ , więc nmpi wynosi 0,
pełne współwystępowanie, $\log p(x,y)= \log p(x) = \log p(y)$ , więc nmpi wynosi 1.

— Piotr Migdal
źródło

Byłaby to bardziej kompletna odpowiedź, aby pokazać, dlaczego npmi jest w przedziale czasowym

[- 1, 1]

$[-1,1]$ . Zobacz mój dowód w innej odpowiedzi.

— Hans

1

Chociaż odpowiedź Piotra Migdala ma charakter informacyjny, podając przykłady, w których nmpi osiąga trzy skrajne wartości, nie dowodzi, że jest w przedziale $[-1,1]$ . Oto nierówność i jej wyprowadzenie.

\begin{aligned} \log p (x, y) \\ \leq & \log p (x, y)) - \log p (x) - \log p (y) \\ = & \log \frac{p (x, y)}{p (x) p (y)} =: pmi (x; y) \\ = & \log p (y | x) + \log p (y | x) - \log p (x, y) \\ \leq & - \log p (x, y) \end{aligned}

$\begin{align} &\log\,p(x,y) \\ \le&\log\,p(x,y))-\log\,p(x)-\log\,p(y) \\ =&\log \frac{p(x,y)}{p(x)p(y)}=:\text{pmi}(x;y) \\ =&\log\, p(y|x)+\log\, p(y|x)-\log\,p(x,y) \\ \le&-\log\,p(x,y) \end{align}$ tak jak

- \log p (A) \geq 0

$-\log\,p(A)\ge0$ na każde wydarzenie

A

$A$ . Dzielenie obu stron przez nieujemne

h (x, y) := - \log p (x, y)

$h(x,y):=-\log\,p(x,y)$ , mamy

- 1 \leq nmpi (x; y) : = \frac{mpi (x; y)}{h (x, y)} \leq 1.

$-1\le\text{nmpi}(x;y):=\frac{\text{mpi(x;y)}}{h(x,y)}\le1.$

— Hans
źródło