Wygładzanie Laplace'a i Dirichleta wcześniej


11

W artykule na Wikipedii o wygładzaniu Laplace'a (lub wygładzaniu addytywnym) mówi się, że z bayesowskiego punktu widzenia

odpowiada to oczekiwanej wartości rozkładu tylnego przy użyciu symetrycznego rozkładu Dirichleta z parametrem jako wcześniejszym.α

Zastanawiam się, jak to w rzeczywistości jest prawdą. Czy ktoś mógłby mi pomóc zrozumieć, w jaki sposób te dwie rzeczy są równoważne?

Dzięki!

Odpowiedzi:


10

Pewnie. Jest to zasadniczo spostrzeżenie, że rozkład Dirichleta jest sprzężony przed rozkładem wielomianowym. Oznacza to, że mają taką samą funkcjonalną formę. Artykuł wspomina o tym, ale podkreślę, że wynika to z modelu wielomianowego próbkowania. Przejdźmy do tego ...

Obserwacja dotyczy tylnej części ciała, więc wprowadźmy pewne dane , które są liczbami różnych pozycji. Obserwujemy łącznie próbek. Zakładamy, że jest pobierany z nieznanej dystrybucji (na której umieścimy przed simplex).K N = K i = 1 x i x π D i r ( α ) KxK.N.=ja=1K.xjaxπrejar(α)K.

Prawdopodobieństwo późniejsze podanego i danych wynosiα xπαx

p(π|x,α)=p(x|π)p(π|α)

Prawdopodobieństwo, , jest rozkładem wielomianowym. Teraz napiszmy pdf:p(x|π)

p(x|π)=N.!x1!xk!π1x1πkxk

i

p(π|α)=1b(α)ja=1K.πjaα-1

gdzie . Mnożąc, widzimy, żeB(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

Innymi słowy, tylnym jest również Dirichlet. Pytanie dotyczyło środka pośrodku. Ponieważ tylnym jest Dirichlet, możemy zastosować wzór na średnią Dirichleta, aby to ustalić,

mi[πja|α,x]=xja+αN.+K.α.

Mam nadzieję że to pomoże!


p ( π | α , x ) = p ( x | π ) p ( π | α ) ? πp(π|α,x)=p(x|π)p(π|α)/p(x|α), więc nie jest błędem powiedzieć, żeSą proporcjonalne w stosunku do , ale myślę, że pisanie równości nie jest prawdą. p(π|α,x)=p(x|π)p(π|α)?π
michal

Przez długi czas byłem zdezorientowany i chcę podzielić się swoją realizacją. Ci ludzie motywujący wygładzanie Laplace'a przez Dirichleta używają średniej tylnej, a nie MAP. Dla uproszczenia załóżmy, że rozkład beta (najprostszy przypadek Dirichleta) Średnia tylna to podczas gdy MAP to . Więc jeśli ktoś powie, że odpowiada dodaniu 1 do licznika i 2 do mianownika, to dlatego, że używa średniej tylnej. α+n s u c c e s s -1α+nsudodomissα+β+nsudodomiss+nfazajalurmis α=β=1α+nsudodomiss-1α+β+nsudodomiss+nfazajalurmis-2)α=β=1
RMurphy

0

Na marginesie, chciałbym również dodać kolejny punkt do powyższej pochodnej, który tak naprawdę nie dotyczy głównego pytania. Mówiąc jednak o priory Dirichleta o rozkładzie wielomianowym, pomyślałem, że warto wspomnieć, jaka byłaby forma funkcji prawdopodobieństwa, gdybyśmy przyjmowali prawdopodobieństwa za zmienne uciążliwe.

Jak słusznie wskazuje sydeulissie, jest proporcjonalne do . Teraz chciałbym obliczyć .p(π|α,x)ja=1K.πjaxja+α-1p(x|α)

p(x|α)=ja=1K.p(x|πja,α)p(π|α)reπ1reπ2)...reπK.

Używając integralnej tożsamości dla funkcji gamma, mamy:

p(x|α)=Γ(K.α)Γ(N.+K.α)ja=1K.Γ(xja+α)Γ(α)

Powyższe wyprowadzenie prawdopodobieństwa dla danych kategorycznych proponuje bardziej niezawodny sposób radzenia sobie z tymi danymi w przypadkach, gdy wielkość próby nie jest wystarczająco duża.N.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.