Czy tylny bayesowski musi być odpowiednio rozmieszczony?


21

Wiem, że aurorzy nie muszą być poprawni, a funkcja prawdopodobieństwa również nie jest zintegrowana z 1. Ale czy tylny musi być odpowiednim rozkładem? Jakie są implikacje, jeśli tak jest / nie jest?

Odpowiedzi:


15

(Nieco zaskakujące jest czytanie poprzednich odpowiedzi, które koncentrują się na potencjalnej niestosowności a posteriori, gdy uprzednia jest właściwa, ponieważ, o ile mogę stwierdzić, pytanie brzmi, czy a posterior musi być właściwy ( tj. całkowalne do jednego), aby być właściwym (tj. akceptowalnym dla wnioskowania bayesowskiego) a posterior).

W statystykach bayesowskich rozkład tylny musi być rozkładem prawdopodobieństwa, z którego można wyprowadzić takie momenty jak średnia tylna i stwierdzenia prawdopodobieństwa, takie jak pokrycie wiarygodnego region, . Jeśli a posterior nie może zostać znormalizowanym do gęstości prawdopodobieństwa, a wnioskowanie bayesowskie po prostu nie może być przeprowadzone. W takich przypadkach tylne po prostu nie istnieje. P (π(θ | x)>κ |miπ[h(θ)|x] f ( x | θ )P.(π(θ|x)>κ|x)

fa(x|θ)π(θ)reθ=+,(1)
π(θ|x)

W rzeczywistości (1) musi zostać zachowane dla wszystkich w przestrzeni próbki, a nie tylko dla obserwowanego , w przeciwnym razie wybór wcześniejszego zależy od danych . Oznacza to, że nie można użyć takich jak wcześniejszy Haldane'a , na prawdopodobieństwie zmiennej dwumianowej lub ujemnej zmiennej dwumianowej , ponieważ tylna nie jest zdefiniowane dla x = 0 .x xp Xπ(p){1/p(1-p)}pXx=0

Znam jeden wyjątek, kiedy można rozważyć „niewłaściwe plakaty tylne”: można go znaleźć w „The Art of Data Augmentation” Davida van Dyka i Xiao-Li Menga. Niewłaściwa miara dotyczy tak zwanego parametru roboczego tak że obserwacja jest wytwarzana przez margines rozszerzonego rozkładu oraz van Dyk i Meng umieszczają niepoprawną wcześniejszą literę na tym roboczym parametrze w celu przyspieszenia symulacji (która pozostaje dobrze zdefiniowana jako gęstość prawdopodobieństwa) przez MCMC.f ( x | θ ) = T ( x sierpień ) = x fα p ( α ) α π ( θ

fa(x|θ)=T.(xsierpień)=xfa(xsierpień|θ,α)rexsierpień
p(α)απ(θ|x)

W innej perspektywie, nieco związanej z odpowiedzią eretmochelys , mianowicie w perspektywie bayesowskiej teorii decyzji , ustawienie, w którym występuje (1), może być nadal akceptowalne, jeśli doprowadzi do optymalnych decyzji. Mianowicie, jeśli jest funkcją straty oceniającą wpływ użycia decyzji , optymalną decyzję bayesowską pod wcześniejszym podaje i wszystko, co ważne, to to, że ta całka nie jest wszędzie (in ) nieskończony. To, czy (1) posiada, jest wtórne dla wyprowadzeniaδ π δ ( x ) = argL.(δ,θ)0δπδ δ ( x )

δ(x)=argminδL.(δ,θ)fa(x|θ)π(θ)reθ
δδ(x), mimo że właściwości takie jak dopuszczalność są gwarantowane tylko wtedy, gdy obowiązuje (1).

19

Rozkład tylny nie musi być prawidłowy, nawet jeśli wcześniejszy jest właściwy. Załóżmy na przykład, że ma wcześniejszy współczynnik gamma o kształcie 0,25 (co jest poprawne), i modelujemy nasz układ odniesienia na podstawie rozkładu Gaussa ze średnią zero i wariancją . Załóżmy, że jest obserwowane jako zero. Zatem prawdopodobieństwo jest proporcjonalne do , co powoduje, że rozkład tylny dla niewłaściwy, ponieważ jest proporcjonalny do . Ten problem powstaje z powodu zwariowanej natury zmiennych ciągłych.x v x p ( x | v ) v - 0,5 v v - 1,25 e - vvxvxp(x|v)v-0,5vv-1,25mi-v


Fajny przykład, Tom!
Zen.

+1, ale czy możesz rozszerzyć odpowiedź na ostatnie zdanie OP? Czy to ma znaczenie dla tego zuchwałego tylnego (czy możesz robić rzeczy, które zwykle robisz z tylnym), czy może jest bardziej analogiczne do uzyskania NaN lub Inf z niektórych obliczeń? Czy to znak, że coś jest nie tak z twoim modelem?
Wayne

5
Z modelem nie ma nic złego. Ten tylny ma znaczenie w tym sensie, że jeśli otrzymujesz inną obserwację, możesz ją pomnożyć i ewentualnie wrócić do właściwego tylnego. Więc to nie jest jak NaN, na którym wszystkie dalsze operacje są NaN.
Tom Minka

8
Chociaż prawdopodobnie jest już za późno, żeby to miało znaczenie, nie sądzę, aby stosowanie takich „kontrprzykładów” pomagało początkującym: problem powstaje, ponieważ używasz określonej wersji gęstości Gaussa przy , kiedy można ją dowolnie zdefiniować w tym zestawie miary zero. A zatem spraw, aby tylny był właściwy lub niewłaściwy w zależności od wybranej wersji. x=0
Xi'an,

Ciekawe - jeśli weźmiesz ogólny , to tylny jest uogólnionym odwrotnym gaussowskim o parametrach . @ Xi'an - dobrze byłoby zobaczyć alternatywny sposób, aby uzyskać z tego właściwy tyłek. - 0,25 , 1 , x 2x0.25,1,x2)
probabilityislogic

11

Definiowanie zestawu my have Ostatnia całka będzie równa jeśli miara Lebesgue'a jest dodatnia. Jest to jednak niemożliwe, ponieważ ta całka daje prawdopodobieństwo (rzeczywista liczba od do ). Wynika stąd, że miara Lebesgue'a jest równa , i oczywiście wynika również z tego, żeP r ( X Dane pozorne ) = Dane pozorne

Fałszywe dane={x:fa(xθ)π(θ)reθ=},
Fałszywe danych 0 1 Fałszywe danych 0 P R ( X Fałszywe danych ) = 0
P.r(XFałszywe dane)=Fałszywe danefa(xθ)π(θ)reθrex=Fałszywe danerex.
Fałszywe dane01Fałszywe dane0P.r(XFałszywe dane)=0 .

Innymi słowy: wcześniejsze przewidywane prawdopodobieństwo tych wartości próbek, które powodują, że tylne niewłaściwe jest równe zero.

Morał tej historii: uważaj na zestawy zerowe, mogą gryźć, choćby to nie było prawdopodobne.

PS Jak zauważył prof. Robert w komentarzach, to rozumowanie wysadza w powietrze, jeśli wcześniejsze jest niewłaściwe.


4
Kiedyś napisałeś : „Jeśli możemy zacząć od właściwego przeora i uzyskać niewłaściwy tyłek, przestanę wnioskować”.
Tom Minka

2
Trochę język w policzek, był ukryty kwantyfikator: jeśli możemy zacząć od właściwego przeora i uzyskać niewłaściwy tył, dla każdej możliwej wartości próbki, to zrezygnuję z wnioskowania. ;-)
Zen.

Nawiasem mówiąc, niezwykłe wspomnienie, Tom!
Zen.

4
P.r(XFałszywe dane)(θ,x)

1
Masz rację. Rozumowanie w odpowiedzi działa tylko z właściwymi priory. Słuszna uwaga. Dodam notatkę.
Zen,

3

Każda „dystrybucja” musi sumować (lub integrować) z 1. Mogę pomyśleć o kilku przykładach, w których można pracować z nie-znormalizowanymi dystrybucjami, ale czuję się nieswojo, nazywając cokolwiek, co marginalizuje do czegokolwiek oprócz 1, „dystrybucją”.

xre

x^=argmaxxP.X|re(x|re)=argmaxxP.re|X(re|x)P.X(x)P.re(re)=argmaxxP.re|X(re|x)P.X(x)

P.rexx^P.re|X(re|x)P.X(x)


@Zen, czy miałbyś coś lepszego do powiedzenia na temat tego, co uważasz za złe (lub zasadniczo niekompletne) na temat tej odpowiedzi?
whuber

1
Jednym ze sposobów interpretacji pytania OP „czy a posteriori musi być odpowiedni rozkład?” polega na pytaniu, czy matematycznie jest możliwe, aby zacząć od właściwego wcześniejszego, a zakończyć niewłaściwym tylnym. Odpowiedź Minki daje wyraźny przykład, w którym tak się dzieje. Próbowałem uzupełnić ją swoją odpowiedzią i wskazać, że może się to zdarzyć tylko w zestawie zerowego prawdopodobieństwa predykcyjnego.
Zen.

1
@Zen Wydaje mi się, że ściśle powiązaną interpretacją jest „jeśli tylny nie jest właściwy, jakie informacje mogę z niego uzyskać?” Ta zaakceptowana odpowiedź wygląda, jakby zawierała przydatne i poprawne porady związane z tą sytuacją w szczególnych okolicznościach (co jest jasno opisane). Akceptacja wygląda dla mnie jak sygnał, że eretmochely uderzyły do ​​domu z przenikliwym odgadnięciem okoliczności.
whuber

-2

nbmitza(0,0)


3
Ta odpowiedź jest niepoprawna. Zobacz moją odpowiedź.
Tom Minka
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.