Podręcznik Elementy teorii informacji daje nam przykład:
Na przykład, jeśli znamy prawdziwy rozkład p zmiennej losowej, moglibyśmy zbudować kod o średniej długości opisu H (p). Jeśli zamiast tego użyjemy kodu dla rozkładu q, potrzebowalibyśmy średnio H (p) + D (p || q) bitów, aby opisać zmienną losową.
Aby sparafrazować powyższe stwierdzenie, możemy powiedzieć, że jeśli zmienimy rozkład informacji (z q na p), potrzebujemy średnio dodatkowych bitów D (p || q), aby zakodować nowy rozkład.
Ilustracja
Pozwól mi to zilustrować za pomocą jednej aplikacji w przetwarzaniu języka naturalnego.
Pod uwagę, że duża grupa ludzi, oznaczony B, są mediatorami, a każdy z nich jest przypisany zadania do wyboru z rzeczownika turkey
, animal
a book
i przekazuje go do C. Jest to nazwa facet, który może wysłać każdy z nich e-maila, aby dać im kilka wskazówek. Jeśli nikt w grupie nie otrzyma wiadomości e-mail, może unieść brwi i wahać się przez chwilę, zastanawiając się, czego potrzebuje C. Prawdopodobieństwo wyboru każdej opcji wynosi 1/3. Zbyt jednolity rozkład (jeśli nie, może odnosić się do ich własnych preferencji i po prostu ignorujemy takie przypadki).
Ale jeśli otrzymają czasownik, np. baste
3/4 z nich może wybrać, turkey
a 3/16 wybrać animal
i 1/16 book
. Więc ile informacji w bitach uzyskał średnio każdy z mediatorów, gdy zna czasownik? To jest:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Ale co jeśli podany czasownik jest read
? Możemy sobie wyobrazić, że wszyscy book
wybraliby bez wahania, wówczas średni przyrost informacji dla każdego mediatora z czasownika read
wynosi:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Widzimy, że czasownik read
może dostarczyć mediatorom więcej informacji. I to może mierzyć względna entropia.
Kontynuujmy naszą historię. Jeśli C podejrzewa, że rzeczownik może się mylić, ponieważ A powiedział mu, że mógł popełnić błąd, wysyłając niewłaściwy czasownik do mediatorów. Ile informacji w bitach może dać C zła wiadomość?
1) jeśli czasownik podany przez A brzmiał baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) ale co jeśli czasownik był read
?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Ponieważ C nigdy nie wie, jakie byłyby pozostałe dwa rzeczowniki i każde słowo w słownictwie byłoby możliwe.
Widzimy, że dywergencja KL jest asymetryczna.
Mam nadzieję, że mam rację, a jeśli nie, proszę o komentarz i pomoc w poprawieniu mnie. Z góry dziękuję.