Proszę wyjaśnić mi różnicę w oszacowaniu Bayesa i oszacowaniu maksymalnego prawdopodobieństwa?
Proszę wyjaśnić mi różnicę w oszacowaniu Bayesa i oszacowaniu maksymalnego prawdopodobieństwa?
Odpowiedzi:
To bardzo szerokie pytanie, a moja odpowiedź tutaj zaczyna tylko nieco zarysować powierzchnię. Wykorzystam zasadę Bayesa do wyjaśnienia pojęć.
Załóżmy, że zestaw parametrów rozkładu prawdopodobieństwa, , najlepiej wyjaśnia DataSet D . Możemy chcieć oszacować parametry θ przy pomocy reguły Bayesa:
Wyjaśnienia są następujące:
Oszacowanie maksymalnego prawdopodobieństwa
Oszacowanie Bayesowskie
Prowadzi to do koncepcji „sprzężonych priorów” w szacunkach Bayesa. W przypadku danej funkcji wiarygodności, jeśli mamy wybór, w jaki sposób wyrażamy nasze wcześniejsze przekonania, musimy użyć tej formy, która pozwala nam przeprowadzić integrację pokazaną powyżej. Idea sprzężonych priorów i ich praktyczna implementacja zostały dość dobrze wyjaśnione w tym poście przez COOlSerdash.
Myślę, że mówisz o estymacji punktowej jak w wnioskowaniu parametrycznym, abyśmy mogli założyć parametryczny model prawdopodobieństwa dla mechanizmu generowania danych, ale rzeczywista wartość parametru jest nieznana.
Oszacowanie maksymalnego prawdopodobieństwa odnosi się do zastosowania modelu prawdopodobieństwa dla danych i optymalizacji łącznej funkcji wiarygodności obserwowanych danych na podstawie jednego lub więcej parametrów. W związku z tym widać, że oszacowane parametry są najbardziej zgodne z obserwowanymi danymi w odniesieniu do dowolnego innego parametru w przestrzeni parametrów. Należy zauważyć, że takie funkcje prawdopodobieństwa niekoniecznie są postrzegane jako „uwarunkowane” parametrami, ponieważ parametry nie są zmiennymi losowymi, dlatego bardziej wyrafinowane jest wyobrażenie sobie prawdopodobieństwa różnych wyników porównujących dwie różne parametryzacje. Okazuje się, że jest to filozoficznie rozsądne podejście.
Szacowanie bayesowskie jest nieco bardziej ogólne, ponieważ niekoniecznie maksymalizujemy bayesowski analog prawdopodobieństwa (gęstość a posteriori). Jednak analogiczny typ estymacji (lub estymacji w trybie bocznym) jest postrzegany jako maksymalizujący prawdopodobieństwo parametru tylnego w zależności od danych. Zazwyczaj szacunki Bayesa uzyskane w taki sposób zachowują się prawie dokładnie tak samo jak ML. Kluczową różnicą jest to, że wnioskowanie Bayesa pozwala na jawną metodę włączenia wcześniejszych informacji.
Również „Epicka historia maksymalnego prawdopodobieństwa” stanowi pouczającą lekturę
Szacunki bayesowskie to wnioskowanie bayesowskie, podczas gdy MLE jest rodzajem metod wnioskowania częstych.
Alternatywa MLE w wnioskowaniu bayesowskim nazywa się oszacowaniem maksymalnym a posteriori (w skrócie MAP), a tak naprawdę MLE jest szczególnym przypadkiem MAP, w którym przeor jest jednolity, jak widzimy powyżej i jak stwierdzono w Wikipedii :
Z punktu widzenia wnioskowania bayesowskiego MLE jest szczególnym przypadkiem oceny maksymalnej a posteriori (MAP), która zakłada jednolity wcześniejszy rozkład parametrów.
Szczegółowe informacje można znaleźć w tym niesamowitym artykule: MLE vs MAP: połączenie między maksymalnym prawdopodobieństwem a maksymalnym oszacowaniem a posteriori .
Jeszcze jedna różnica polega na tym, że maksymalne prawdopodobieństwo jest zbyt duże, ale jeśli przyjmie się podejście bayesowskie, problemu nadmiernego dopasowania można uniknąć.