Odpowiedzi:
(Nieco zaskakujące jest czytanie poprzednich odpowiedzi, które koncentrują się na potencjalnej niestosowności a posteriori, gdy uprzednia jest właściwa, ponieważ, o ile mogę stwierdzić, pytanie brzmi, czy a posterior musi być właściwy ( tj. całkowalne do jednego), aby być właściwym (tj. akceptowalnym dla wnioskowania bayesowskiego) a posterior).
W statystykach bayesowskich rozkład tylny musi być rozkładem prawdopodobieństwa, z którego można wyprowadzić takie momenty jak średnia tylna i stwierdzenia prawdopodobieństwa, takie jak pokrycie wiarygodnego region, . Jeśli a posterior nie może zostać znormalizowanym do gęstości prawdopodobieństwa, a wnioskowanie bayesowskie po prostu nie może być przeprowadzone. W takich przypadkach tylne po prostu nie istnieje. P (π(θ | x)>κ |∫ f ( x | θ )
W rzeczywistości (1) musi zostać zachowane dla wszystkich w przestrzeni próbki, a nie tylko dla obserwowanego , w przeciwnym razie wybór wcześniejszego zależy od danych . Oznacza to, że nie można użyć takich jak wcześniejszy Haldane'a , na prawdopodobieństwie zmiennej dwumianowej lub ujemnej zmiennej dwumianowej , ponieważ tylna nie jest zdefiniowane dla x = 0 . p X
Znam jeden wyjątek, kiedy można rozważyć „niewłaściwe plakaty tylne”: można go znaleźć w „The Art of Data Augmentation” Davida van Dyka i Xiao-Li Menga. Niewłaściwa miara dotyczy tak zwanego parametru roboczego tak że obserwacja jest wytwarzana przez margines rozszerzonego rozkładu oraz van Dyk i Meng umieszczają niepoprawną wcześniejszą literę na tym roboczym parametrze w celu przyspieszenia symulacji (która pozostaje dobrze zdefiniowana jako gęstość prawdopodobieństwa) przez MCMC.f ( x | θ ) = ∫ T ( x sierpień ) = x f p ( α ) α π ( θ
W innej perspektywie, nieco związanej z odpowiedzią eretmochelys , mianowicie w perspektywie bayesowskiej teorii decyzji , ustawienie, w którym występuje (1), może być nadal akceptowalne, jeśli doprowadzi do optymalnych decyzji. Mianowicie, jeśli jest funkcją straty oceniającą wpływ użycia decyzji , optymalną decyzję bayesowską pod wcześniejszym podaje i wszystko, co ważne, to to, że ta całka nie jest wszędzie (in ) nieskończony. To, czy (1) posiada, jest wtórne dla wyprowadzeniaδ π δ ⋆ ( x ) = argδ δ ⋆ ( x )
Rozkład tylny nie musi być prawidłowy, nawet jeśli wcześniejszy jest właściwy. Załóżmy na przykład, że ma wcześniejszy współczynnik gamma o kształcie 0,25 (co jest poprawne), i modelujemy nasz układ odniesienia na podstawie rozkładu Gaussa ze średnią zero i wariancją . Załóżmy, że jest obserwowane jako zero. Zatem prawdopodobieństwo jest proporcjonalne do , co powoduje, że rozkład tylny dla niewłaściwy, ponieważ jest proporcjonalny do . Ten problem powstaje z powodu zwariowanej natury zmiennych ciągłych.x v x p ( x | v ) v - 0,5 v v - 1,25 e - v
Definiowanie zestawu my have Ostatnia całka będzie równa jeśli miara Lebesgue'a jest dodatnia. Jest to jednak niemożliwe, ponieważ ta całka daje prawdopodobieństwo (rzeczywista liczba od do ). Wynika stąd, że miara Lebesgue'a jest równa , i oczywiście wynika również z tego, żeP r ( X ∈ Dane pozorne ) = ∫ Dane pozorne
Innymi słowy: wcześniejsze przewidywane prawdopodobieństwo tych wartości próbek, które powodują, że tylne niewłaściwe jest równe zero.
Morał tej historii: uważaj na zestawy zerowe, mogą gryźć, choćby to nie było prawdopodobne.
PS Jak zauważył prof. Robert w komentarzach, to rozumowanie wysadza w powietrze, jeśli wcześniejsze jest niewłaściwe.
Każda „dystrybucja” musi sumować (lub integrować) z 1. Mogę pomyśleć o kilku przykładach, w których można pracować z nie-znormalizowanymi dystrybucjami, ale czuję się nieswojo, nazywając cokolwiek, co marginalizuje do czegokolwiek oprócz 1, „dystrybucją”.