Przykład, w jaki sposób statystyki bayesowskie mogą oszacować parametry, które są bardzo trudne do oszacowania za pomocą metod częstych

Bayesowscy statystycy twierdzą, że „statystyki bayesowskie mogą oszacować parametry, które są bardzo trudne do oszacowania za pomocą metod częstych”. Czy następujący cytat zaczerpnięty z tej dokumentacji SAS mówi to samo?

Zapewnia wnioski, które są uzależnione od danych i są dokładne, bez polegania na asymptotycznym przybliżeniu. Wnioskowanie o małej próbce przebiega w taki sam sposób, jak w przypadku dużej próbki. Analiza bayesowska może również oszacować dowolne funkcje parametrów bezpośrednio, bez użycia metody „plug-in” (sposób na oszacowanie funkcjonałów poprzez podłączenie oszacowanych parametrów do funkcjonałów).

Widziałem podobne stwierdzenie w jakimś podręczniku, ale nie pamiętam gdzie. Czy ktoś może mi to wyjaśnić na przykładzie?

— Stat-R
źródło

Jakie jest prawdopodobieństwo, że jutro wstanie słońce? en.wikipedia.org/wiki/Sunrise_problem Ten przykład może być bardziej trywialny, niż się spodziewałeś

— Hugh,

Czy możesz umieścić cytat bezpośrednio w swoim pytaniu? Tytuł wydaje się niezwiązany z drugim punktem.

— Hugh

Stwierdzenie w tym cytacie nie jest świetne, ponieważ (a) „dokładny” nic tam nie znaczy, oraz (b) krytyka wtyczek ma zastosowanie tylko wtedy, gdy rozważa się pełną ocenę tylną, a nie inną, plus w zależności od wybranej funkcji straty do oszacowania. Zobacz inne pytanie, aby uzyskać odpowiedzi .

— Xi'an

Mam zastrzeżenia do tego cytatu:

„Częstotliwość” to podejście do wnioskowania oparte na właściwościach częstotliwości wybranych estymatorów. Jest to niejasne pojęcie, ponieważ nie stwierdza nawet, że estymatorzy muszą się zbiegać, a jeśli postępują zgodnie z tym, w jaki sposób muszą się zbiegać. Na przykład bezstronność jest pojęciem częstym, ale nie może obejmować żadnej funkcji [parametru $\theta$ ] będące przedmiotem zainteresowania od czasu kolekcji przekształceń $\theta$ które pozwalają na obiektywne oszacowanie jest bardzo ograniczone. Co więcej, estymator częstokształtny nie jest wytwarzany przez paradygmat, ale musi zostać najpierw wybrany przed dokonaniem oceny. W tym sensie estymator bayesowski jest estymatorem częstym, jeśli spełnia pewne własności częstokroć.
Wnioskowanie wynikające z podejścia bayesowskiego opiera się na rozkładzie tylnym, reprezentowanym przez jego gęstość $\pi(\theta|\mathfrak{D})$ . Nie rozumiem, w jaki sposób można przypisać termin „dokładny” $\pi(\theta|\mathfrak{D})$ Jest to wyjątkowo związane z wcześniejszą dystrybucją $\pi(\theta)$ i jest dokładnie wywiedziony z twierdzenia Bayesa. Ale to nie wraca dokładnie wnioskowanie, że estymacja punktowa jest nie prawdziwa wartość parametru $\theta$ i generuje dokładne stwierdzenia prawdopodobieństwa tylko w ramach dostarczonych przez parę przed x prawdopodobieństwem . Zmiana jednego terminu w parze powoduje modyfikację tylnej i wnioskowania, podczas gdy nie ma ogólnego argumentu za obroną pojedynczego przejęcia lub prawdopodobieństwa.
Podobnie, inne stwierdzenia prawdopodobieństwa, takie jak „prawdziwy parametr ma prawdopodobieństwo, że 0,95 spadnie w 95% wiarygodnym przedziale”, znalezione na tej samej stronie tej dokumentacji SAS, mają znaczenie w odniesieniu do ram dystrybucji tylnej, ale nie w wartości bezwzględnej.
Z perspektywy obliczeniowej prawdą jest, że podejście bayesowskie często zwraca dokładne lub przybliżone odpowiedzi w przypadkach, gdy standardowe podejście klasyczne zawodzi. Dotyczy to na przykład ukrytych [lub brakujących] modeli zmiennych $fa (x | θ) = \int sol (x, z | θ) re z$ $f(x|\theta)=\int g(x,z|\theta)\,\text{d}z$ gdzie $g(x,z|\theta)$ to łączna gęstość dla pary $(X,Z)$ i gdzie $Z$ nie obserwuje się, Szacowanie produkcji $\theta$ i jego tylnej przez symulację pary $(\theta,\mathfrak{Z})$ może okazać się znacznie łatwiejsze niż oszacowanie maksymalnego prawdopodobieństwa [częstokroć?] Praktycznym przykładem tego ustawienia jest koalescencyjny model Kingmana w genetyce populacji , w którym ewolucja populacji od wspólnego przodka obejmuje utajone zdarzenia na drzewach binarnych. Ten model może być obsługiwany przez [przybliżone] wnioskowanie bayesowskie za pomocą algorytmu zwanego ABC, mimo że istnieją również rozdzielczości oprogramowania nie bayesowskiego .
Jednak nawet w takich przypadkach nie sądzę, aby wnioskowanie bayesowskie było jedynym możliwym rozwiązaniem. Techniki uczenia maszynowego, takie jak sieci neuronowe, losowe lasy, głębokie uczenie się, można sklasyfikować jako metody częste, ponieważ ćwiczą na próbce poprzez krzyżową weryfikację, minimalizując kryterium błędu lub odległości, które można postrzegać jako oczekiwanie [zgodnie z prawdziwym modelem] aproksymowane przez średnią z próby. Na przykład, model koalescencyjny Kingmana może być również obsługiwany przez nie-bayesowskie rozdzielczości oprogramowania .
Ostatnim punktem jest to, że do oszacowania punktowego podejście bayesowskie może dawać szacunki wtyczek. Dla niektórych funkcji strat, które nazwałem stratami wewnętrznymi , estymator Bayesa transformacji $\mathfrak{h}(\theta)$ jest transformacja $\mathfrak{h}(\hat\theta)$ estymatora Bayesa z $\theta$ .

— Xi'an
źródło

Odpowiedź jest dobra, o ile to możliwe. Sprzeciwiam się punktowi 5, ponieważ przypisuje on metodom ML wyższą wydajność, która musi być jeszcze uzasadniona teorią. Co jeszcze znaczy „… prawdziwy model…”? Bez wątpienia metody te są popularne, ale popularność ta jest zazwyczaj uzasadniona ich zdolnością do „skalowania”. Niestety, wiele wglądów diagnostycznych oferowanych przez Bayesowskie i częste metody nie-ML są tracone, gdy takie podejścia są stosowane. W szczególności walidacja krzyżowa może przynieść wyższy poziom błędów niż inne techniki Patrz Efron, 1983, 1986, JASA.

— Jan Galkowski

Dzięki. W rzeczywistości nie nadaję metod ML „mocami”, po prostu wspominam, że niektóre odpowiedzi ML mogą być proponowane dla złożonych modeli. A przez „prawdziwe modele” rozumiem ocenę wydajności metody zakładającej (błędnie), że dane są wytwarzane przez wspomniany model. Co jest wadą większości analiz statystycznych imo.

— Xi'an