Dlaczego Bayesian posterior koncentruje się wokół minimalizatora dywergencji KL?

Rozważmy Bayesa posterior . Asymptotycznie, jego maksimum występuje przy oszacowaniu MLE , co tylko maksymalizuje prawdopodobieństwo . $\theta\mid X$ $\hat \theta$ $\operatorname{argmin}_\theta\, f_\theta(X)$

Wszystkie te koncepcje - priory bayesowskie, maksymalizujące prawdopodobieństwo - brzmią bardzo pryncypialnie i wcale nie są arbitralne. W polu widzenia nie ma logów.

Jednak MLE minimalizuje rozbieżność KL między rozkładem rzeczywistym i , tzn. Minimalizuje $\tilde f$ $f_\theta(x)$

K L (\tilde{f} ∥ f_{θ}) = \int_{- \infty}^{+ \infty} \tilde{f} (x) [\log \tilde{f} (x) - \log f_{θ} (x)] d x

$KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) \left[ \log \tilde f(x) - \log f_\theta(x) \right] \, dx$

Woah - skąd pochodzą te dzienniki? Dlaczego w szczególności dywergencja KL?

Dlaczego na przykład minimalizowanie różnych rozbieżności nie odpowiada nadrzędnym i zmotywowanym koncepcjom bayesowskich posteriorów i maksymalizacji prawdopodobieństwa powyżej?

Wydaje się, że w tym kontekście jest coś specjalnego w dywergencji KL i / lub logach. Oczywiście możemy podnieść ręce w powietrze i powiedzieć, że taka jest matematyka. Ale podejrzewam, że może być głębsza intuicja lub powiązania do odkrycia.

bayesian maximum-likelihood kullback-leibler

— Yatharth Agarwal
źródło

Możesz znaleźć kilka pomysłów tutaj: stats.stackexchange.com/questions/188903/…

— kjetil b halvorsen

@kjetilbhalvorsen Poprzedni tytuł brzmiał jak duplikat; Przepraszam. Dokonałem edycji i powinno być jasne, dlaczego to pytanie nie jest duplikatem.

— Yatharth Agarwal

Pozostałe pytania brzmią: „Co to jest dywergencja KL i dlaczego nie jest symetryczna?” Odpowiedzi wyjaśniają pojęcie rozbieżności i kilka informacji na temat KL. Natomiast pytanie to brzmi: „Dlaczego Bayesian posterior koncentruje się wokół minimalizatora dywergencji KL?” Samo wyjaśnienie, w jaki sposób rozbieżności nie muszą być symetryczne, oraz wyjaśnienie KL i stwierdzenie, że KL ma związek z MLE, nie odnosi się do sedna pytania: dlaczego spośród wielu możliwych rozbieżności KL w szczególności ma szczególne powiązanie z bayesowskim a posteriori. Czy to ma sens?

— Yatharth Agarwal

Tak, to ma sens, ale wciąż jest problem. Tylny zależy również od wcześniejszego, a jeśli to jest silne, tylny może mieć maksimum z dala od mle. Ale przeora nie ma w twoim pytaniu.

— kjetil b halvorsen

@kjetilbhalversen Miałem na myśli asymptotycznie z coraz większą liczbą próbek IID i w (surowych) warunkach, w których przeor nie ma znaczenia asymptotycznie!

— Yatharth Agarwal

Zastosowanie logarytmów w takich obliczeniach pochodzi z teorii informacji . W szczególnym przypadku rozbieżności KL miarę można interpretować jako informację względną dwóch rozkładów:

\begin{aligned} K L (\tilde{f} ∥ f_{θ}) & = \int_{- \infty}^{\infty} \tilde{f} (x) (\log \tilde{f} (x) - \log f_{θ} (x)) d x \\ = (\underset{H (\tilde{f}, f_{θ})}{\underset{⏟}{- \int_{- \infty}^{\infty} \tilde{f} (x) \log f_{θ} (x) d x}}) - (\underset{H (\tilde{f})}{\underset{⏟}{- \int_{- \infty}^{\infty} \tilde{f} (x) \log \tilde{f} (x) d x}}), \end{aligned}

$\begin{equation} \begin{aligned} KL(\tilde{f} \parallel f_\theta) &= \int \limits_{-\infty}^\infty \tilde{f}(x) (\log \tilde{f}(x) - \log f_\theta (x)) \ dx \\[6pt] &= \Bigg( \underbrace{- \int \limits_{-\infty}^\infty \tilde{f}(x) \log f_\theta(x) \ dx}_{H(\tilde{f}, f_\theta)} \Bigg) - \Bigg( \underbrace{- \int \limits_{-\infty}^\infty \tilde{f}(x) \log \tilde{f}(x) \ dx}_{H(\tilde{f})} \Bigg), \\[6pt] \end{aligned} \end{equation}$

gdzie jest entropia z i jest przekrój entropia i . Entropię można traktować jako mierniki średniego tempa produkowanego przez gęstość (myśl, że entropia krzyżowa jest nieco bardziej skomplikowana). Minimalizowanie rozbieżności KL dla stałej wartości (jak we wspomnianym problemie) jest równoważne z minimalizowaniem entropii krzyżowej, dlatego optymalizację tę można interpretować teoretycznie. $H(\tilde{f})$ $\tilde{f}$ $H(\tilde{f}, f_\theta)$ $\tilde{f}$ $f_\theta$ $\tilde{f}$

Nie jestem w stanie podać dobrego opisu teorii informacji i właściwości miar informacji w krótkim poście. Poleciłbym jednak przyjrzeć się tej dziedzinie, ponieważ ma ona ścisłe powiązania ze statystykami. Wiele miar statystycznych obejmujących całki i sumy w logarytmach gęstości to proste kombinacje standardowych miar informacji stosowanych w teorii miar, w takich przypadkach można je interpretować w kategoriach podstawowych poziomów informacji w różnych gęstościach itp.

— Ben - Przywróć Monikę
źródło

Zagadnienie teorii informacji brzmi obiecująco! Dzięki za wskazanie mi tego.

— Yatharth Agarwal

Oczywiście nie możesz wyjaśnić całego pola matematycznego we wpisie StackExchange, ale czy masz jakieś odniesienia do nich, gdy pojawia się dziennik?

— Yatharth Agarwal

Wydaje mi się, że kryje się w tym tak głęboka intuicja, dlaczego, powiedzmy, e jest w równaniu Eulera i że czai się tutaj podobna intuicja. Może gdzieś jakiś produkt powoduje powstanie logarytmu naturalnego. Nie jestem pewny.

— Yatharth Agarwal

@ Yatharth logarytm powstaje tutaj ze względu na jego centralną rolę w definicji entropii Shannona. Jeśli chodzi o „dlaczego” logarytm jest odpowiedni dla miary informacji, w przeciwieństwie do innej funkcji, spójrz na twierdzenie 2 w „Matematycznej teorii komunikacji” Shannona. Również „Teoria informacji i mechanika statystyczna” Jayne'a to miłe wprowadzenie.

— Nate Pope