Po długim przeszukiwaniu Cross Validated nadal nie czuję, że jestem bliżej zrozumienia dywergencji KL poza sferą teorii informacji. To dość dziwne, gdy ktoś z wykształceniem matematycznym łatwiej jest zrozumieć wyjaśnienie teorii informacji.
Podsumowując moje rozumienie na podstawie teorii informacji: jeśli mamy zmienną losową o skończonej liczbie wyników, istnieje optymalne kodowanie, które pozwala nam komunikować wynik z kimś innym, z przeciętnie najkrótszą wiadomością (uważam, że najłatwiej jest to zrobić obraz w kategoriach bitów). Oczekiwaną długość komunikatu, który należałoby przekazać, wynik podaje
Podoba mi się to wyjaśnienie, ponieważ dość intuicyjnie zajmuje się asymetrią dywergencji KL. Jeśli mamy dwa różne systemy, tj. Dwie załadowane monety, które są inaczej załadowane, będą miały różne optymalne kodowanie. Nie instynktownie nie uważam, że użycie kodowania drugiego systemu dla pierwszego jest „równie złe”, jak użycie kodowania pierwszego systemu dla drugiego. Nie przechodząc przez proces myślenia o tym, jak się przekonałem, jestem teraz całkiem szczęśliwy, że
Jednak większość definicji rozbieżności KL, w tym Wikipedia, wypowiada się następnie (utrzymując to w dyskretnych terminach, aby można je było porównać z interpretacją teorii informacji, która działa znacznie lepiej w dyskretnych terminach, ponieważ bity są dyskretne), że jeśli mamy dwa dyskretne prawdopodobieństwo dystrybucje, a następnie KL podaje pewną miarę „jak różne są”. Nie widziałem jeszcze jednego wyjaśnienia, w jaki sposób te dwa pojęcia są ze sobą powiązane. Wydaje mi się, że pamiętam w swojej książce na temat wnioskowania, że Dave Mackay mówi o tym, jak kompresja danych i wnioskowanie są w zasadzie tym samym, i podejrzewam, że moje pytanie jest z tym związane.
Niezależnie od tego, czy jest, czy nie, pytanie, które mam na myśli, dotyczy problemów wnioskowania. (Zachowując dyskrecję), jeśli mamy dwie próbki radioaktywne i wiemy, że jedna z nich jest pewnym materiałem o znanej radioaktywności (jest to wątpliwa fizyka, ale udawajmy, że wszechświat działa w ten sposób), a zatem znamy „prawdziwy” rozkład radioaktywnych kliknięć, które powinniśmy zmierzyć, powinno być poissońskie ze znanym , czy sprawiedliwe jest zbudowanie empirycznego rozkładu dla obu próbek i porównanie ich rozbieżności KL ze znanym rozkładem i stwierdzenie, że niższy jest bardziej prawdopodobny dla tego materiału?
Odchodząc od wątpliwej fizyki, jeśli wiem, że dwie próbki są pobierane z tego samego rozkładu, ale wiem, że nie są losowo wybierane, porównanie ich rozbieżności KL ze znanym, globalnym rozkładem dałoby mi poczucie „jak stronnicze” są próbki , w stosunku do jednego i drugiego?
I wreszcie, jeśli odpowiedź na poprzednie pytania brzmi „tak”, to dlaczego? Czy można zrozumieć te rzeczy wyłącznie ze statystycznego punktu widzenia, nie czyniąc żadnych (być może wątłych) powiązań z teorią informacji?