Kiedy metody bayesowskie są lepsze od Frequentist?

18

Naprawdę chcę dowiedzieć się o technikach bayesowskich, więc starałem się trochę nauczyć. Trudno mi jednak dostrzec, kiedy stosowanie technik bayesowskich kiedykolwiek daje przewagę nad metodami Frequentist. Na przykład: Widziałem w literaturze trochę o tym, jak niektórzy wykorzystują pouczające priory, podczas gdy inni używają nieinformacyjnego przeora. Ale jeśli używasz nieinformacyjnego przeora (co wydaje się naprawdę powszechne?) I okaże się, że rozkład tylny jest, powiedzmy, rozkładem beta ... czy nie mógłbyś po prostu dopasować rozkładu beta na początku i nazwać to dobre? Nie rozumiem, jak skonstruowanie wcześniejszej dystrybucji, która nic ci nie mówi ... naprawdę może ci coś powiedzieć?

Okazuje się, że niektóre metody, których używałem w R, wykorzystują mieszankę metod bayesowskich i częstych (autorzy potwierdzają, że jest to nieco niespójna) i nawet nie jestem w stanie rozpoznać, które części są bayesowskie. Oprócz dopasowania dystrybucji, nie mogę nawet dowiedzieć się, w jaki sposób zastosowałbyś metody bayesowskie. Czy istnieje „regresja bayesowska”? Jakby to wyglądało? Wszystko, co mogę sobie wyobrazić, to zgadywanie bazowej dystrybucji w kółko, podczas gdy Frequentist myśli o niektórych danych, przygląda się im, widzi rozkład Poissona i uruchamia GLM. (To nie jest krytyka ... Naprawdę po prostu nie rozumiem!)

Więc ... może pomogłyby jakieś podstawowe przykłady? A jeśli znasz jakieś praktyczne referencje dla prawdziwych początkujących, takich jak ja, to też byłoby bardzo pomocne!

bayesian frequentist

— HFBrowning
źródło

Możliwa duplikat tego ?

— Glen_b

Eee, wygląda na to? Witaj na zakończenie, ponieważ zbliża się to do udzielenia odpowiedzi na moje pytanie. Nadal zastanawiam się nad prostszymi sytuacjami, które opisałem (ponieważ nigdy nie słyszałem o technikach wymienionych w tym wątku), ale przypuszczam, że moją odpowiedzią jest to, że ludzie NIE używają technik bayesowskich do regresji itp., Ponieważ istnieją ustalone i łatwe techniki częstych?

— HFBrowning

2

Ludzie nie używać technik Bayesa dla regresji. Ponieważ jednak metody częstokroć są bardzo wygodne, a wiele osób pragnie pragnąć, które podejście zastosują, tak często ludzie, którzy chętnie korzystają z nich, zastosują zwykłą regresję, jeśli nie będzie potrzeby czegoś bardziej skomplikowanego. Ale gdy tylko będziesz musiał poradzić sobie z nieco większą złożonością lub formalnie uwzględnić wcześniejsze informacje, lub dowolną liczbę innych powodów, skromne dodatkowe prace w podejściach bayesowskich zaczną wyglądać dobrze.

— Glen_b

To ma sens, dziękuję. Czytanie niektórych innych wątków również wyjaśniło mi zastosowania.

— HFBrowning

Coś innego, co jest istotne ... w przypadku regresji w ustawieniu Bayesa, najczęściej używanymi priorytetami dla współczynników są wielowymiarowy Normalny i wielowymiarowy Laplace. Korzystanie z tych priorów działa na rzecz nakładania kar skurczowych na współczynniki, dzięki czemu są one równoważne z zastosowaniem regresji grzbietu lub LASSO, odpowiednio, jeśli weźmie się oszacowanie współczynników MAP według algorytmu bayesowskiego. O wiele bardziej ekonomicznie jest obliczać te wyniki w sposób, który nie jest w pełni bayesowski, a jeśli są one zasadniczo równoważne ... po co zawracać sobie głowę?

11

Oto kilka linków, które mogą Cię zainteresować porównaniem metod częstych i bayesowskich:

W skrócie, w sposób, w jaki to zrozumiałem, biorąc pod uwagę określony zestaw danych, częsty uważa, że istnieje prawdziwy, podstawowy rozkład, z którego te dane zostały wygenerowane. Niemożność uzyskania dokładnych parametrów jest funkcją skończonej wielkości próbki. Z drugiej strony Bayesianie uważają, że zaczynamy od pewnych założeń dotyczących parametrów (nawet jeśli nieświadomie) i wykorzystujemy dane do udoskonalenia naszej opinii na temat tych parametrów. Obie próbują opracować model, który może wyjaśnić obserwacje i dokonać prognoz; różnica polega na założeniach (zarówno faktycznych, jak i filozoficznych). Jako zwięzłe, rygorystyczne oświadczenie, można powiedzieć, że częstokroć uważa, że parametry są ustalone, a dane losowe; Bayesian uważa, że dane są stałe, a parametry są losowe. Który jest lepszy lub lepszy? Aby odpowiedzieć, że musisz się wkopać i uświadomić sobie po prostujakie założenia pociągają za sobą (np. czy parametry są asymptotycznie normalne?).

— Avraham
źródło

2

Wiele świetnych i interesujących odpowiedzi, ale to najbardziej odpowiadało na moje pytania. Dzięki

— HFBrowning

@Avraham pierwszy link jest zepsuty

— Erik Hambardzumyan

1

@ErikHambardzumyan Thanks. Znaleziono wersję zapisaną na maszynie powrotnej.

— Avraham,

10

Jednym z wielu interesujących aspektów kontrastów między tymi dwoma podejściami jest to, że bardzo trudno jest formalnie interpretować wiele wielkości, które uzyskujemy w dziedzinie częstych. Jednym z przykładów jest stale rosnące znaczenie metod penalizacji (kurczenie się). Kiedy otrzymuje się oszacowane maksymalne prawdopodobieństwo, które jest karane, oszacowania punktu tendencyjnego i „przedziały ufności” są bardzo trudne do interpretacji. Z drugiej strony, boczny rozkład bayesowski dla parametrów, które są karane w kierunku zera za pomocą wcześniejszego rozkładu skoncentrowanego wokół zera, ma całkowicie standardowe interpretacje.

— Frank Harrell
źródło

1

To dobra uwaga. Zastanawiam się jednak, czy jest to przede wszystkim prawdą, gdy lambda jest wybierana a priori. Często można wybrać lambda za pomocą walidacji krzyżowej, aby zoptymalizować błąd prognozowania próby. W takim przypadku dziwne wydaje mi się stwierdzenie, że lambda odpowiada „wcześniejszym informacjom”, które przedstawiłeś w analizie.

— gung - Przywróć Monikę

1

λ = σ^{- 2}

$\lambda = \sigma^{-2}$

λ

$\lambda$

3

Powiedziałbym, że Lambda był hiperparametrem przeora (dla którego będąc bardziej Bayesowskim można mieć hiper-przeora i zmarginalizować to również jmlr.org/papers/volume8/cawley07a/cawley07a.pdf )

— Dikran Marsupial

5

Kradnę to hurtowo od grupy użytkowników Stan. Michael Betancourt to zapewnił naprawdę dobrą dyskusję na identyfikowalności w wnioskowaniu bayesowskim, co, jak sądzę, opiera się na twojej prośbie o kontrast dwóch szkół statystycznych.

Pierwszą różnicą w analizie bayesowskiej będzie obecność priorów, które, nawet jeśli są słabe, ograniczą masę tylną dla tych 4 parametrów do skończonego sąsiedztwa (w przeciwnym razie nie miałbyś ważnego wcześniejszego). Mimo to nadal możesz mieć niemożność zidentyfikowania w tym sensie, że tylny nie zbiegnie się do masy punktowej w granicy nieskończonych danych. W bardzo realnym sensie nie ma to jednak znaczenia, ponieważ (a) nieskończony limit danych i tak nie jest rzeczywisty i (b) wnioskowanie Bayesa nie zgłasza oszacowań punktowych, a raczej rozkłady. W praktyce taka niemożność zidentyfikowania spowoduje duże korelacje między parametrami (być może nawet niewypukłość), ale odpowiednia analiza bayesowska zidentyfikuje te korelacje. Nawet jeśli zgłaszasz marginesy jednoparametrowe, „

$\mu_1$ $\mu_2$ $\mathcal{N}(x | \mu_1 + \mu_2, \sigma)$ $\mu_1 + \mu_2 = 0$ $\mu_1$ $\mu_2$

$\mu_1$ $\mu_2$ $\mu_1$ $\mu_2$

— Sycorax mówi Przywróć Monikę
źródło

3

Kluczowa różnica między podejściem bayesowskim a częstym polega na zdefiniowaniu prawdopodobieństwa, więc jeśli konieczne jest traktowanie prawdopodobieństw ściśle jako częstotliwości długoterminowej, wówczas podejścia częste są uzasadnione, jeśli nie, to należy zastosować podejście bayesowskie. Jeśli którakolwiek interpretacja jest możliwa do zaakceptowania, wówczas podejście bayesowskie i częste są prawdopodobnie uzasadnione.

Innym sposobem na wyrażenie tego jest to, że jeśli chcesz wiedzieć, jakie wnioski możesz wyciągnąć z konkretnego eksperymentu, prawdopodobnie chcesz być Bayesianem; jeśli chcesz wyciągnąć wnioski na temat pewnej populacji eksperymentów (np. kontroli jakości), wtedy metody częste są odpowiednie.

Zasadniczo ważne jest, aby wiedzieć, na jakie pytanie chcesz uzyskać odpowiedź, i wybrać formę analizy, która najbardziej odpowiada na pytanie.

— Dikran Torbacz
źródło