Dlaczego rozbieżność KL jest nieujemna?

Dlaczego dywergencja KL nie jest ujemna?

Z punktu widzenia teorii informacji rozumiem tak intuicyjnie:

Powiedzmy, że istnieją dwa zespoły $A$ i $B$ które składają się z tego samego zestawu elementów oznaczonych $x$ . $p(x)$ i $q(x)$ są różne rozkłady prawdopodobieństwa ponad zespołem $A$ i $B$ , odpowiednio.

Z punktu widzenia teorii informacji $\log_{2}(P(x))$ jest najmniejsza ilość bitów wymaganych dla nagrywania elementu $x$ na zespół $A$ . Tak więc oczekiwanie

\sum_{x \in e n s e m b l e} - p (x) \ln (p (x))

$\sum_{x \in ensemble}-p(x)\ln(p(x))$ może być interpretowane jako co najmniej ile bitów potrzebujemy średnio do zarejestrowania elementu w

A

$A$

Ponieważ ta formuła nakłada dolną granicę na potrzebne bity średnio, tak że dla innego zbioru który powoduje inny rozkład prawdopodobieństwa , granica, którą daje dla każdego elementu , z pewnością nie będzie go bitować podane przez , co oznacza przyjęcie oczekiwań, $B$ $q(x)$ $x$ $p(x)$

\sum_{x \in e n s e m b l e} - p (x) \ln (q (x))

$\sum_{x\in ensemble}-p(x)\ln(q(x))$ ta średnia długość z pewnością będzie większa niż poprzednia, co prowadzi do

Nie umieszczamtutaj

, ponieważ

są różne.

\sum_{x \in e n s e m b l e} p (x) \frac{\ln (p (x))}{\ln (q (x))} > 0

$\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0$

\geq

$\ge$

p (x)

$p(x)$

q (x)

$q(x)$

Takie jest moje intuicyjne rozumienie, czy istnieje czysto matematyczny sposób wykazania, że rozbieżność KL jest nieujemna? Problem można określić jako:

Biorąc pod uwagę, że i są dodatnie w stosunku do linii rzeczywistej, a , . Wykazać $p(x)$ $q(x)$ $\int_{-\infty}^{+\infty}p(x)dx = 1$ $\int_{-\infty}^{+\infty}q(x)dx = 1$ jest nieujemne.

\int_{- \infty}^{+ \infty} p (x) \ln \frac{p (x)}{q (x)}

$\int_{-\infty}^{+\infty}p(x)\ln\frac{p(x)}{q(x)}$

Jak można to udowodnić? Czy można to udowodnić bez dodatkowych warunków?

information-theory kullback-leibler

— meTchaikovsky
źródło

Jeśli rozumiesz dowód nierówności Fano, łatwo jest wywnioskować nieegatywność względnej entropii.

— Lerner Zhang

Dowód 1:

$\ln a \leq a-1$ $a \gt 0$

$-D_{KL}(p||q) \leq 0$ $D_{KL}(p||q) \geq 0$

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \ln \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \ln \frac{q (x)}{p (x)} \\ \overset{(a)}{\leq} \sum_{x} p (x) (\frac{q (x)}{p (x)} - 1) \\ = \sum_{x} q (x) - \sum_{x} p (x) \\ = 1 - 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\ln \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\ln \frac{q(x)}{p(x)}\\ &\stackrel{\text{(a)}}{\leq} \sum_x p(x)\left(\frac{q(x)}{p(x)}-1\right)\\ &=\sum_x q(x) - \sum_x p(x)\\ &= 1 - 1\\ &= 0 \end{align}$

$\ln$

- \sum_{x} p (x) \log_{2} p (x) \leq - \sum_{x} p (x) \log_{2} q (x)

$-\sum_x p(x) \log_2 p(x) \leq -\sum_x p(x)\log_2 q(x)$

\sum_{x} p (x) \log_{2} p (x) - \sum_{x} p (x) \log_{2} q (x) \geq 0 \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \geq 0

$\sum_x p(x) \log_2 p(x) - \sum_x p(x)\log_2 q(x)\geq 0 \\ \sum_x p(x)\log_2 \frac{p(x)}{q(x)}\geq 0$

Nie uwzględniam tego jako osobnego dowodu, ponieważ jeśli poprosisz mnie o udowodnienie nierówności Gibbsa, musiałbym zacząć od braku negatywności rozbieżności KL i zrobić ten sam dowód od góry.

\sum_{i = 1}^{n} a_{i} \log_{2} \frac{a_{i}}{b_{i}} \geq (\sum_{i = 1}^{n} a_{i}) \log_{2} \frac{\sum_{i = 1}^{n} a_{i}}{\sum_{i = 1}^{n} b_{i}}

$\sum_{i=1}^{n} a_i \log_2 \frac{a_i}{b_i} \geq \left(\sum_{i=1}^{n} a_i\right)\log_2\frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} b_i}$

Then we can show that $D_{KL}(p||q) \geq 0$ :

\begin{aligned} D (p | | q) & = \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ \overset{(b)}{\geq} (\sum_{x} p (x)) \log_{2} \frac{\sum_{x} p (x)}{\sum_{x} q (x)} \\ = 1 \cdot \log_{2} \frac{1}{1} \\ = 0 \end{aligned}

$\begin{align} D(p||q)&=\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &\stackrel{\text{(b)}}{\geq} \left(\sum_x p(x)\right)\log_2\frac{\sum_x p(x)}{\sum_x q(x)}\\ &=1 \cdot \log_2 \frac{1}{1}\\ &=0 \end{align}$

where we have used the Log sum inequality at (b).

Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \log_{2} \frac{q (x)}{p (x)} \\ \overset{(c)}{\leq} \log_{2} \sum_{x} p (x) \frac{q (x)}{p (x)} \\ = \log_{2} 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\log_2 \frac{q(x)}{p(x)}\\ &\stackrel{\text{(c)}}{\leq} \log_2 \sum_x p(x)\frac{q(x)}{p(x)}\\ &=\log_2 1\\ &=0 \end{align}$

where at (c) we have used Jensen's inequality and the fact that $\log$ is a concave function.

— Andreas G.
źródło