Dlaczego dywergencja KL nie jest ujemna?
Z punktu widzenia teorii informacji rozumiem tak intuicyjnie:
Powiedzmy, że istnieją dwa zespoły i które składają się z tego samego zestawu elementów oznaczonych . i są różne rozkłady prawdopodobieństwa ponad zespołem i , odpowiednio.
Z punktu widzenia teorii informacji jest najmniejsza ilość bitów wymaganych dla nagrywania elementu na zespół . Tak więc oczekiwanie
Ponieważ ta formuła nakłada dolną granicę na potrzebne bity średnio, tak że dla innego zbioru który powoduje inny rozkład prawdopodobieństwa q ( x ) , granica, którą daje dla każdego elementu x , z pewnością nie będzie go bitować podane przez p ( x ) , co oznacza przyjęcie oczekiwań, ∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) )
Nie umieszczamtutaj≥, ponieważp(x)iq(x)są różne.
Takie jest moje intuicyjne rozumienie, czy istnieje czysto matematyczny sposób wykazania, że rozbieżność KL jest nieujemna? Problem można określić jako:
Biorąc pod uwagę, że i q ( x ) są dodatnie w stosunku do linii rzeczywistej, a ∫ + ∞ - ∞ p ( x ) d x = 1 , ∫ + ∞ - ∞ q ( x ) d x = 1 . Wykazać ∫ + ∞ - ∞ p ( x ) ln p ( x ) jest nieujemne.
Jak można to udowodnić? Czy można to udowodnić bez dodatkowych warunków?