najwyraźniej czynnik Bayesa w jakiś sposób wykorzystuje prawdopodobieństwa, które reprezentują prawdopodobieństwo każdego modelu zintegrowanego w całej jego przestrzeni parametrów (tj. nie tylko w MLE). W jaki sposób zazwyczaj dokonuje się tej integracji? Czy naprawdę próbuje się po prostu obliczyć prawdopodobieństwo dla każdej z tysięcy (milionów?) Losowych próbek z przestrzeni parametrów, czy też istnieją metody analityczne do zintegrowania prawdopodobieństwa w przestrzeni parametrów?
Po pierwsze, każda sytuacja, w której rozważasz termin taki jak dla danych i modelu jest uważana za model prawdopodobieństwa . Często jest to chleb powszedni w każdej analizie statystycznej, częstej lub bayesowskiej, i jest to część, która ma sugerować, że twoja analiza jest dobrze dopasowana lub źle dopasowana. Tak więc czynniki Bayesa nie robią nic zasadniczo innego niż wskaźniki prawdopodobieństwa.P(D|M)DM
Ważne jest, aby odpowiednio ustawić czynniki Bayesa. Jeśli masz dwa modele, powiedzmy, i przekształcasz prawdopodobieństwa na szanse, czynniki Bayesa działają jak operator na podstawie wcześniejszych przekonań:
PosteriorOdds=BayesFactor∗PriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)
Prawdziwa różnica polega na tym, że współczynniki prawdopodobieństwa są tańsze do obliczenia i ogólnie łatwiejsze do określenia koncepcyjnego. Prawdopodobieństwo w MLE jest tylko oszacowaniem punktowym odpowiednio licznika i mianownika czynnika Bayesa. Podobnie jak w konstrukcjach najczęstszych, może być postrzegany jako szczególny przypadek analizy bayesowskiej z wymyślnym uprzednim, trudnym do zdobycia. Ale przede wszystkim powstało, ponieważ jest analitycznie wykonalne i łatwiejsze do obliczenia (w erze przed powstaniem przybliżonych bayesowskich podejść obliczeniowych).
Do rzeczy na temat obliczeń, tak: ocenisz różne całki prawdopodobieństwa w ustawieniu Bayesa za pomocą wielkoskalowej procedury Monte Carlo w prawie każdym praktycznym przypadku. Istnieją pewne wyspecjalizowane symulatory, takie jak GHK, które działają, jeśli przyjmie się pewne rozkłady, a jeśli przyjmie się te założenia, czasami można znaleźć problemy, które można rozwiązać, dla których istnieją w pełni analityczne czynniki Bayesa.
Ale nikt ich nie używa; nie ma powodu do tego. Dzięki zoptymalizowanym próbnikom Metropolis / Gibbs i innym metodom MCMC, całkowicie możliwe jest podejście do tych problemów w sposób całkowicie oparty na danych i obliczenie liczb całkowitych. W rzeczywistości często robi się to hierarchicznie i dodatkowo integruje wyniki w stosunku do meta-priorów związanych z mechanizmami gromadzenia danych, nieusuwalnymi projektami eksperymentalnymi itp.
Polecam książkę Analiza danych bayesowskich, aby uzyskać więcej na ten temat. Chociaż autor, Andrew Gelman, wydaje się nie przejmować zbytnio czynnikami Bayesa . Nawiasem mówiąc, zgadzam się z Gelmanem. Jeśli masz zamiar przejść Bayesian, wykorzystaj pełny tył. Wykonywanie wyboru modelu metodami bayesowskimi jest jak upośledzenie ich, ponieważ wybór modelu jest słabą i najczęściej bezużyteczną formą wnioskowania. Wolałbym znać rozkłady dotyczące wyborów modeli, gdybym mógł ... kogo obchodzi kwantyfikacja tego, że „model A jest lepszy niż model B” tego rodzaju stwierdzeń, kiedy nie musisz?
Ponadto, czy przy obliczaniu współczynnika Bayesa stosuje się korektę złożoności (automatycznie poprzez walidację szacunkową prawdopodobieństwa lub analitycznie za pomocą AIC), tak jak robi się to ze współczynnikiem prawdopodobieństwa?
Jest to jedna z fajnych cech metod bayesowskich. Czynniki Bayesa automatycznie uwzględniają złożoność modelu w sensie technicznym. Możesz skonfigurować prosty scenariusz z dwoma modelami, i z założonymi złożonościami modeli odpowiednio i , odpowiednio z i wielkością próby .M1M2d1d2d1<d2N
Zatem jeśli jest współczynnikiem Bayesa z w liczniku, przy założeniu, że jest prawdą, można udowodnić, że gdy , zbliża się w tempie zależnym od różnicy w złożoności modelu oraz że czynnik Bayesa faworyzuje prostszy model. Mówiąc dokładniej, możesz wykazać, że przy wszystkich powyższych założeniachB1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
Znam to wyprowadzenie i dyskusję z książki Finite Mixture and Markov Switching Models autorstwa Sylvii Frühwirth-Schnatter, ale prawdopodobnie istnieją bardziej bezpośrednie relacje statystyczne, które bardziej zagłębiają się w epistemologię leżącą u jej podstaw.
Nie znam szczegółów wystarczająco dobrze, aby je tutaj podać, ale wierzę, że istnieją dość głębokie teoretyczne powiązania między tym a wyprowadzeniem AIC. Książka Teorii informacji autorstwa Covera i Thomasa przynajmniej to wskazywała.
Jakie są również filozoficzne różnice między współczynnikiem prawdopodobieństwa a współczynnikiem Bayesa (nb. Nie pytam o filozoficzne różnice między współczynnikiem wiarygodności a metodami Bayesa w ogóle, ale czynnik Bayesa jako reprezentacja obiektywnych dowodów konkretnie). W jaki sposób można scharakteryzować znaczenie współczynnika Bayesa w porównaniu ze współczynnikiem prawdopodobieństwa?
Sekcja artykułu w Wikipedii na temat „Interpretacji” dobrze dyskutuje na ten temat (szczególnie wykres pokazujący skalę dowodów siły Jeffreysa).
Jak zwykle, nie ma zbyt wielu rzeczy filozoficznych poza podstawowymi różnicami między metodami bayesowskimi a metodami częstymi (które wydaje się, że już znasz).
Najważniejsze jest to, że wskaźnik prawdopodobieństwa nie jest spójny w sensie holenderskiej książki. Możesz wymyślić scenariusze, w których wnioskowanie o wyborze modelu na podstawie ilorazów prawdopodobieństwa doprowadzi do zaakceptowania przegranych zakładów. Metoda bayesowska jest spójna, ale działa na zasadzie przełożonej, która może być bardzo uboga i musi być wybrana subiektywnie. Kompromisy ... kompromisy ...
FWIW, myślę, że ten mocno sparametryzowany wybór modelu nie jest zbyt dobrym wnioskowaniem. Wolę metody bayesowskie i wolę organizować je bardziej hierarchicznie i chcę, aby wnioskowanie koncentrowało się na pełnym rozkładzie bocznym, jeśli jest to w ogóle wykonalne obliczeniowo. Myślę, że czynniki Bayesa mają pewne czyste właściwości matematyczne, ale nie jestem pod ich wrażeniem jako sam Bayesjanin. Kryją one bardzo przydatną część analizy bayesowskiej, która zmusza cię do radzenia sobie z przeorami na otwartej przestrzeni zamiast zamiatania ich pod dywan i pozwala wnioskować na pełnych ścianach bocznych.