Diagnostyka resztkowa w modelach regresji opartych na MCMC

Niedawno przystąpiłem do dopasowywania modeli mieszanych z regresją w ramach Bayesa, używając algorytmu MCMC (właściwie funkcja MCMCglmm w R).

Wydaje mi się, że zrozumiałem, jak zdiagnozować zbieżność procesu szacowania (ślad, wykres Geweke'a, autokorelacja, rozkład tylny ...).

Jedną z rzeczy, która uderza mnie w ramy Bayesa, jest to, że wiele wysiłku wydaje się poświęcać na wykonanie tych diagnostyki, podczas gdy wydaje się, że niewiele robi się w zakresie sprawdzania resztek dopasowanego modelu. Na przykład w MCMCglmm funkcja residual.mcmc () istnieje, ale tak naprawdę nie jest jeszcze zaimplementowana (tzn. Zwraca: „reszty jeszcze nie zaimplementowane dla obiektów MCMCglmm”; ta sama historia dla przewidywania.mcmc ()). Wydaje się, że brakuje go również w innych pakietach, a ogólnie rzecz biorąc, mało jest omawiana w literaturze, którą znalazłem (poza DIC, który jest również dość intensywnie omawiany).

Czy ktoś mógłby wskazać mi kilka przydatnych odniesień, a najlepiej R kodu, z którym mógłbym grać lub modyfikować?

Wielkie dzięki.

— Rossinante
źródło

Świetne pytanie. Bardzo podoba mi się praca Andrew Gelmana z Cosmą Shalizi na temat sprawdzania modelu Bayesa.

— David J. Harris

Myślę, że użycie terminu resztkowego nie jest zgodne z regresją bayesowską. Pamiętaj, że w częstościowych modelach prawdopodobieństwa to parametry są uważane za ustalone wielkości, które można oszacować, a mechanizm generowania danych ma jakiś losowy model prawdopodobieństwa związany z obserwowanymi danymi. W przypadku Bayesian parametry modeli prawdopodobieństwa są uważane za zmienne, a ustalone dane aktualizują nasze przekonanie o tym, jakie są te parametry. Dlatego jeśli obliczasz wariancję zaobserwowanych minus dopasowanych wartości w modelu regresji, zaobserwowanykomponent miałby wariancję 0, podczas gdy dopasowany komponent zmieniałby się w funkcji tylnej gęstości prawdopodobieństwa dla parametrów modelu. Jest to przeciwieństwo tego, co można wywnioskować z modelu regresji częstokrzyskiej. Myślę, że gdyby ktoś był zainteresowany sprawdzeniem probabilistycznych założeń ich modelu regresji bayesowskiej, prosty wykres QQ gęstości tylnej oszacowań parametrów (oszacowanych na podstawie naszego próbkowania MCMC) w porównaniu z rozkładem normalnym miałby moc diagnostyczną analogiczną do analizy reszt (lub reszt Pearsona dla nieliniowych funkcji łącza).

— AdamO
źródło

To dobra odpowiedź. Mogą jeszcze istnieć odpowiedzi, które dają użyteczne konstrukty bayesowskie obliczone na podstawie dopasowanej wartości obserwowanej minus, ale ta z pewnością nie powinna była zostać odrzucona.

— ely

Warto też wyjaśnić, że w ustawieniach bayesowskich nie ma tak naprawdę „dopasowanych” wartości. Można obliczyć średnią a posteriori dla danego obserwowanego wejścia, aby uzyskać maksymalne oszacowanie a posteriori oczekiwanej wartości zmiennej docelowej na tym wejściu. Sprowadzałoby to jednak wszystko do oszacowań punktowych, co zwykle nie jest pożądane, jeśli wnioskujesz o bayesowskie wnioskowanie.

— ely

@EMS którekolwiek z nich są znaczącymi resztkami. To, że ktoś jest Bayesianinem, nie oznacza, że nie można sprawdzić, czy założenia znajdują odzwierciedlenie w danych.

— Glen_b

W celu dokładnego wnioskowania probabilistycznego (obowiązujące założenia normalności) w ustawieniach częstych, „reszty” w replikach eksperymentu badawczego byłyby warunkowo niezależne od „dopasowanej wartości” (lub średniej warunkowej). W świecie Bayes dane nie są losowe, więc co byłoby warunkowo niezależne od czego?

— AdamO,

E [Y | X]

$\mbox{E}[Y|X]$

X

$X$

Y

$Y$