Rozważmy Bayesa posterior . Asymptotycznie, jego maksimum występuje przy oszacowaniu MLE , co tylko maksymalizuje prawdopodobieństwo .
Wszystkie te koncepcje - priory bayesowskie, maksymalizujące prawdopodobieństwo - brzmią bardzo pryncypialnie i wcale nie są arbitralne. W polu widzenia nie ma logów.
Jednak MLE minimalizuje rozbieżność KL między rozkładem rzeczywistym i , tzn. Minimalizuje
Woah - skąd pochodzą te dzienniki? Dlaczego w szczególności dywergencja KL?
Dlaczego na przykład minimalizowanie różnych rozbieżności nie odpowiada nadrzędnym i zmotywowanym koncepcjom bayesowskich posteriorów i maksymalizacji prawdopodobieństwa powyżej?
Wydaje się, że w tym kontekście jest coś specjalnego w dywergencji KL i / lub logach. Oczywiście możemy podnieść ręce w powietrze i powiedzieć, że taka jest matematyka. Ale podejrzewam, że może być głębsza intuicja lub powiązania do odkrycia.