Kiedy rozkładu częstości próbkowania nie można interpretować jako bayesowskie a posteriori w ustawieniach regresji?

Moje aktualne pytania znajdują się w dwóch ostatnich akapitach, ale motywuję je:

Jeśli próbuję oszacować średnią zmiennej losowej, która podąża za rozkładem normalnym ze znaną wariancją, przeczytałem, że umieszczenie munduru przed średnią skutkuje rozkładem tylnym, który jest proporcjonalny do funkcji prawdopodobieństwa. W takich sytuacjach wiarygodny przedział bayesowski idealnie pokrywa się z częstym przedziałem ufności, a szacunek maksimum a posteriori bayesowskiego jest równy szacunkowi maksymalnego prawdopodobieństwa częstokroć.

W prostym ustawieniu regresji liniowej

$Y = \textbf{X}\beta+\epsilon, \hspace{1cm} \epsilon\sim N(0,\sigma^2)$

umieszczenie przed jednolita na , a odwrotna gamma przed na przy małych wartościach parametrów prowadzi do tylnej , które są bardzo podobne do częstościowym i wiarygodnego interwał rozkładu tylnego z który będzie bardzo podobny do przedziału ufności wokół oszacowania maksymalnego prawdopodobieństwa. Nie będą dokładnie takie same, ponieważ wcześniejszy na $\beta$ $\sigma^2$ $\hat\beta^{MAP}$ $\hat\beta^{MLE}$ $\beta|X$ $\sigma^2$ wywiera mały oddziaływania, a jeśli tylna oszacowanie wykonuje się za pomocą symulacji MCMC które wprowadzają inne źródło rozbieżności, lecz wiarygodny Bayesa przedział wokół i częstościowym przedziału ufności zostanie dość blisko siebie i oczywiście wraz ze wzrostem wielkości próby powinny one się zbiegać, gdy wpływ prawdopodobieństwa staje się dominujący w stosunku do wcześniejszego. $\hat\beta^{MAP}$ $\hat\beta^{MLE}$

Ale czytałem, że istnieją również sytuacje regresji, w których te prawie równoważne wartości nie mają miejsca. Na przykład regresje hierarchiczne z efektami losowymi lub regresja logistyczna - są to sytuacje, w których, jak rozumiem, nie ma „dobrych” celów lub referencyjnych priorytetów.

$P(\beta|X)$ i że nie posiadam wcześniejszych informacji, które chciałbym uwzględnić, dlaczego nie mogę kontynuować częstokroć szacowania maksymalnego prawdopodobieństwa w takich sytuacjach i interpretować wynikowe oszacowania współczynników i standardowe błędy jako szacunki Bayesian MAP i odchylenia standardowe, i domyślnie traktować je szacunki „tylne” jako wynikające z przeora, który musiał być „nieinformacyjny” bez próby znalezienia wyraźnego sformułowania przeora, który prowadziłby do takiego tylnego? Zasadniczo, w obszarze analizy regresji, kiedy można postępować zgodnie z tymi zasadami (traktując prawdopodobieństwo jak z tyłu), a kiedy nie jest to w porządku? A co z metodami częstokroć, które nie są oparte na prawdopodobieństwie, takimi jak metody quasi-wiarygodności,

Czy odpowiedzi zależą od tego, czy moim celem wnioskowania są oszacowania punktu współczynnika, czy prawdopodobieństwo, że współczynnik znajdzie się w określonym zakresie, czy też wielkości rozkładu predykcyjnego?

— Yakkanomica
źródło

$p$

$H_0$ $p$ $H_0$

$p$ $P(D|H_0)$ $P(H_0|D)$

$p$ $\theta$

L (θ | D) = P (D | θ)

$L(\theta | D) = P(D|\theta)$

$P(\theta|D)$ $\theta$

\underset{posterior}{\underset{⏟}{P (θ | D)}} \propto \underset{likelihood}{\underset{⏟}{P (D | θ)}} \times \underset{prior}{\underset{⏟}{P (θ)}}

$\underbrace{P(\theta|D)}_\text{posterior} \propto \underbrace{P(D|\theta)}_\text{likelihood} \times \underbrace{P(\theta)}_\text{prior}$

$p$

Tak więc, chociaż szacunki maksymalnego prawdopodobieństwa powinny być takie same jak szacunki Bayesian MAP w ramach jednolitych priorytetów, musisz pamiętać, że odpowiadają one na inne pytanie.

Cohen, J. (1994). Ziemia jest okrągła (p <0,05). American Psychologist, 49, 997-1003.

— Tim
źródło

Dzięki za odpowiedź @ Tim. Powinienem był wyrazić się lepiej - rozumiem, że P (D | H) i P (H | D) zasadniczo nie są takie same oraz że częste osoby i Bayesianie różnią się między sobą co do tego, czy właściwe jest przypisanie rozkładów prawdopodobieństwa do parametrów ( lub bardziej ogólnie hipotezy). Pytam o sytuacje, w których (częsty) rozkład próbkowania estymatora będzie liczbowo równoważny (bayesowskiemu) rozkładowi tylnemu prawdziwej wartości parametru.

— Yakkanomica

Kontynuacja mojego poprzedniego komentarza: Napisałeś: „Tak więc, podczas gdy szacunki maksymalnego prawdopodobieństwa powinny być takie same jak szacunki Bayesian MAP w ramach jednolitych priorytetów” - pytam, czy są sytuacje, w których związek się rozpada - oba pod względem szacunków punktowych i rozkładów wokół nich.

— Yakkanomica

Ostatnie uzupełnienie - niektórzy twierdzą, że główną zaletą bayesowskiego podejścia jest możliwość elastycznego uwzględnienia wcześniejszej wiedzy. Według mnie atrakcyjność podejścia bayesowskiego polega na interpretacji - możliwości przypisania rozkładu prawdopodobieństwa do parametru. Konieczność określenia priorytetów jest uciążliwa. Chcę wiedzieć, w jakich sytuacjach mogę zastosować metody częstokroć, ale przypisać wynikom interpretację bayesowską, argumentując, że wyniki częstokrzyskie i bayesowskie pokrywają się liczbowo z pozornie nieinformacyjnymi priorytetami.

— Yakkanomica

@Yakkanomica Rozumiem, to interesujące pytanie, ale prosta odpowiedź (jak wspomniano powyżej) jest taka, że nie powinieneś dokonywać takich interpretacji, ponieważ najczęstsze metody odpowiadają na inne pytanie niż Bayesian. Szacunki ML i MAP powinny się zgadzać, ale przedziały ufności i HDI mogą się różnić i nie należy interpretować ich zamienności.

— Tim

Ale @Tim istnieją sytuacje, w których przedziały ufności i HDI nakładają się. Na przykład porównaj oszacowania ML na str. 1906 z bayesowskimi szacunkami tylnymi (na podstawie jednolitych priorów na współczynnikach i IG przed skalą) na str. 1908: przykład PROC GENMOD . Oszacowanie punktu ML i 95% limity ufności są bardzo podobne do Bayesowskiej średniej oceny tylnej i 95% przedziału HPD.

— Yakkanomica