Bayesowskie a częste interpretacje prawdopodobieństwa

37

Czy ktoś może dobrze podsumować różnice między bayesowskim a częstym podejściem do prawdopodobieństwa?

Z tego co rozumiem:

Częstotliwość uważa, że dane są powtarzalną próbą losową (zmienną losową) o określonej częstotliwości / prawdopodobieństwie (która jest zdefiniowana jako względna częstotliwość zdarzenia, gdy liczba prób zbliża się do nieskończoności). Podstawowe parametry i prawdopodobieństwa pozostają stałe podczas tego powtarzalnego procesu, a zmiana jest spowodowana zmiennością a nie rozkładem prawdopodobieństwa (który jest ustalony dla określonego zdarzenia / procesu). $X_n$

Bayesowski widok jest taki, że dane są stałe, podczas gdy częstotliwość / prawdopodobieństwo dla określonego zdarzenia może ulec zmianie, co oznacza, że parametry rozkładu ulegają zmianie. W efekcie otrzymane dane zmieniają wcześniejszą dystrybucję parametru, który jest aktualizowany dla każdego zestawu danych.

Wydaje mi się, że częste podejście jest bardziej praktyczne / logiczne, ponieważ wydaje się rozsądne, że zdarzenia mają określone prawdopodobieństwo i że zmienność jest w naszym dobraniu próby.

Co więcej, większość analiz danych z badań jest zwykle przeprowadzana przy użyciu podejścia częstokroć (tj. Przedziały ufności, testowanie hipotez z wartościami p itp.), Ponieważ jest to łatwe do zrozumienia.

Zastanawiałem się tylko, czy ktokolwiek mógłby mi szybko podsumować swoją interpretację podejścia bayesowskiego vs. częstokrzyskiego, w tym bayesowskie równoważniki statystyczne częstości p i przedziału ufności. Ponadto doceniono konkretne przykłady, w których 1 metoda byłaby lepsza od drugiej.

probability bayesian frequentist

— BYS2
źródło

1

1 / 2

$1/2$

@DilipSarwate ay, będę o tym pamiętać następnym razem. ale wygląda na to, że tym razem otrzymałem kilka dobrych odpowiedzi, więc może spróbuję tu skończyć: D

— BYS2

Zobacz także stats.stackexchange.com/q/173056/35989

— Tim

27

W podejściu częstokrzyskim stwierdza się, że jedynym sensem, w którym prawdopodobieństwa mają znaczenie, jest wartość graniczna liczby sukcesów w sekwencji prób, tj.

p = lim_{n \to \infty} \frac{k}{n}

$p = \lim_{n\to\infty} \frac{k}{n}$

gdzie to liczba sukcesów, a to liczba prób. W szczególności nie ma sensu kojarzenie rozkładu prawdopodobieństwa z parametrem . $k$ $n$

Na przykład rozważmy próbki z rozkładu Bernoulliego z parametrem (tzn. Mają wartość 1 z prawdopodobieństwem i 0 z prawdopodobieństwem ). Możemy zdefiniować przykładowy wskaźnik sukcesu będzie $X_1, \dots, X_n$ $p$ $p$ $1-p$

\hat{p} = \frac{X_{1} + \dots + X_{n}}{n}

$\hat{p} = \frac{X_1+\cdots +X_n}{n}$

i mów o rozkładzie uwarunkowanym wartością , ale nie ma sensu odwracać pytania i zacząć mówić o rozkładzie prawdopodobieństwa zależnym od obserwowanej wartości . W szczególności oznacza to, że kiedy obliczamy przedział ufności, interpretujemy końce przedziału ufności jako zmienne losowe i mówimy o „prawdopodobieństwie, że przedział zawiera prawdziwy parametr”, a nie „prawdopodobieństwie, że parametr jest w przedziale ufności ". $\hat{p}$ $p$ $p$ $\hat{p}$

W podejściu bayesowskim interpretujemy rozkłady prawdopodobieństwa jako kwantyfikujące naszą niepewność co do świata. W szczególności oznacza to, że możemy teraz w znaczący sposób mówić o rozkładach prawdopodobieństwa parametrów, ponieważ chociaż parametr jest stały, nasza wiedza o jego prawdziwej wartości może być ograniczona. W powyższym przykładzie możemy odwrócić rozkład prawdopodobieństwa za pomocą prawa Bayesa, aby dać $f(\hat{p}\mid p)$

\overset{posterior}{\overset{⏞}{f (p ∣ \hat{p})}} = \underset{likelihood ratio}{\underset{⏟}{\frac{f (\hat{p} ∣ p)}{f (\hat{p})}}} \overset{prior}{\overset{⏞}{f (p)}}

$\overbrace{f(p\mid \hat{p})}^\text{posterior} = \underbrace{\frac{f(\hat{p}\mid p)}{f(\hat{p})}}_\text{likelihood ratio} \overbrace{f(p)}^\text{prior}$

Wadą jest to, że musimy wprowadzić wcześniejszy rozkład do naszej analizy - odzwierciedla to nasze przekonanie o wartości zanim zobaczymy rzeczywiste wartości . Rola przeora jest często krytykowana w podejściu częstokroć, ponieważ argumentuje się, że wprowadza podmiotowość w skądinąd surowy i obiektowy świat prawdopodobieństwa. $p$ $X_i$

W podejściu bayesowskim nie mówi się już o przedziałach ufności, ale zamiast wiarygodnych przedziałów, które mają bardziej naturalną interpretację - biorąc pod uwagę 95% wiarygodny przedział, możemy przypisać 95% prawdopodobieństwo, że parametr znajduje się w tym przedziale.

— Chris Taylor
źródło

6

Z drugiej strony, jedna krytyka podejścia częstych jest taka, że nie zgadza się z tym, jak ludzie myślą o prawdopodobieństwie. Zastanów się, jak ludzie mówią o „prawdopodobieństwie” zdarzeń jednorazowych, takich jak wyginięcie dinozaurów, lub o „prawdopodobieństwie” „pewności”, takich jak wschodzące słońce jutro ...

14

Warto również wspomnieć, że różnica między podejściem częstym a bayesowskim nie jest prawie tak duża na poziomie praktycznym: każdej metodzie częstokrzyskiej, która daje użyteczne i spójne wyniki, można ogólnie nadać interpretację bayesowską i odwrotnie . W szczególności przekształcenie obliczeń częstych w terminach bayesowskich zwykle daje regułę obliczania z tyłu, biorąc pod uwagę pewien konkretny uprzedni . Następnie można zapytać: „Czy jest to rozsądny przypuszczenie, że przełożony?”

— Ilmari Karonen,

Dziękuję za tę odpowiedź, jest to zgodne z moim ogólnym zrozumieniem. Zastanawiałem się jednak, czy mógłbyś wyjaśnić jedną rzecz, jak byś znalazł prawdopodobieństwo prawdopodobieństwa sukcesu danych / próby (f (p-hat)) we wzorze prawa Baye'a? Przeczytałem kilka sprawdzonych przykładów i ogólnie rozumiem, jak wyprowadzić f (p-hat | p) i poprzednie f (p), ale f (p-hat) umyka mi do tej pory. Gdybyś miał jakieś linki do niektórych zasobów, byłoby to wspaniałe: D. Dzięki!

— BYS2

@IlmariKaronen. Ok, więc czy to powiesz, że gdybym miał badanie, które dało pewne wyniki wyrażone jako przedziały ufności, mógłbym przekształcić dane i zamiast tego przeprowadzić analizę bayesowską? a wyniki byłyby mniej więcej spójne?

— BYS2

To, co mówi @Karonen, nie jest całkowicie dokładne. Dwie najczęściej stosowane techniki częstokroć to oszacowania punktowe (zwykle oszacowanie maksymalnego prawdopodobieństwa) i testy hipotez, i żadnej z nich tak naprawdę nie można interpretować naturalnie jako bayesowską interpretację.

— Jules

20

Masz rację co do interpretacji prawdopodobieństwa częstych: losowość w tym ustawieniu wynika jedynie z niepełnego próbkowania. Z punktu widzenia bayesowskiego prawdopodobieństwa są „subiektywne”, ponieważ odzwierciedlają niepewność agenta co do świata. Nie jest słuszne stwierdzenie, że parametry rozkładów „zmieniają się”. Ponieważ nie mamy pełnych informacji o parametrach, nasza niepewność co do nich zmienia się, gdy zbieramy więcej informacji.

Obie interpretacje są przydatne w aplikacjach, a to, co jest bardziej przydatne, zależy od sytuacji. Na blogu Andrew Gelmana możesz znaleźć pomysły na temat aplikacji bayesowskich. W wielu sytuacjach, które Bayesianie nazywają „priorsami”, częstokrzyści nazywają „regularyzacją”, a więc (z mojej perspektywy) emocje mogą opuścić pokój dość szybko. W rzeczywistości, zgodnie z twierdzeniem Bernsteina-von Misesa, wnioskowanie bayesowskie i częstościowe są w rzeczywistości asymptotycznie równoważne przy raczej słabych założeniach (chociaż w szczególności twierdzenie zawodzi w przypadku rozkładów nieskończenie wymiarowych). Można znaleźć mnóstwo odniesień na ten temat tutaj .

Ponieważ poprosiłeś o interpretację: myślę, że punkt widzenia Frequentist ma duży sens podczas modelowania eksperymentów naukowych w taki sposób, w jaki został zaprojektowany. W przypadku niektórych zastosowań uczenia maszynowego lub modelowania wnioskowania indukcyjnego (lub uczenia się) prawdopodobieństwo bayesowskie ma dla mnie większy sens. Istnieje wiele sytuacji, w których modelowanie zdarzenia ze stałym „prawdziwym” prawdopodobieństwem wydaje się nieprawdopodobne.

Na przykład zabawki wracającej do Laplace , rozważ prawdopodobieństwo wschodu słońca jutro. Z perspektywy Frequentist musimy ustalić coś w rodzaju nieskończenie wielu wszechświatów, aby określić prawdopodobieństwo. Jako Bayesianie istnieje tylko jeden wszechświat (a przynajmniej nie musi ich być wiele). Nasza niepewność co do wschodu słońca jest stłumiona przez nasze bardzo, bardzo silne wcześniejsze przekonanie, że powstanie jutro.

— tak
źródło

17

Bayesowska interpretacja prawdopodobieństwa jest interpretacją stopnia wiary.

Bayesian może powiedzieć, że prawdopodobieństwo istnienia życia na Marsie miliard lat temu wynosi . $1/2$

Częstochowiec odmówi przypisania prawdopodobieństwa tej propozycji. Nie jest to coś, co można powiedzieć, że jest prawdziwe w połowie wszystkich przypadków, więc nie można przypisać prawdopodobieństwa . $1/2$

— Michael Hardy
źródło

2

Prawdopodobnie nie ma lepszego miejsca do zastanowienia się nad ograniczeniami bardziej wąskiego podejścia częstokroć w porównaniu z ogólnością podejścia bayesowskiego (rozszerzenie logiki) niż klasyczny artykuł RT Coxa.

— gwr

2

Cox napisał także o tym książkę zatytułowaną Algebra of Probable Inference , wydaną przez Johns Hopkins. @gwr qquad

$\qquad$

— Michael Hardy

1

Ian Hacking dobrze to powiedział w swojej książce „Wprowadzenie do prawdopodobieństwa i logiki indukcyjnej”. Powiedział: „Bayesian jest w stanie przypisać osobiste prawdopodobieństwa lub stopnie wiary poszczególnym twierdzeniom. Dogmatysta o twardej linii uważa, że prawdopodobieństwa można przypisać tylko do szeregu zdarzeń”.

— Buttons840,

9

Chris podaje ładne, uproszczone wyjaśnienie, które właściwie rozróżnia dwa podejścia do prawdopodobieństwa. Jednak częstokroć teoria prawdopodobieństwa to coś więcej niż tylko patrzenie na długofalowy odsetek sukcesów. Uwzględniamy również dane losowo pobrane z rozkładu i oszacowujemy parametry rozkładu, takie jak średnia i wariancja, przyjmując pewne typy średnich danych (np. Dla średniej jest to średnia arytmetyczna obserwacji. Teoria częstościowa wiąże prawdopodobieństwo z oszacowaniem zwanym rozkładem próbkowania.

W teorii częstotliwości jesteśmy w stanie wykazać dla parametrów takich jak średnia, które są pobierane przez uśrednienie z próbek, że oszacowanie będzie zbieżne z parametrem prawdziwym. Rozkład próbkowania służy do opisania, jak blisko oszacowania jest do parametru dla dowolnej ustalonej wielkości próbki n. Zamknięcie jest zdefiniowane przez miarę dokładności (np. Średni błąd kwadratowy).

W Chris wskazuje na dowolny parametr, taki jak średnia Bayesa dołącza do niego wcześniejszy rozkład prawdopodobieństwa. Następnie, biorąc pod uwagę dane, reguła Bayesa jest używana do obliczenia rozkładu tylnego dla parametru. W przypadku Bayesian wszystkie wnioski na temat parametru oparte są na tym rozkładzie bocznym.

Częstokroć konstruują przedziały ufności, które są przedziałami wiarygodnych wartości parametru. Ich konstrukcja oparta jest na częstym prawdopodobieństwie, że jeśli proces zastosowany do wygenerowania przedziału zostanie powtórzony wiele razy dla niezależnych próbek, proporcja przedziałów, która faktycznie zawiera prawdziwą wartość parametru, będzie wynosić co najmniej pewien wcześniej określony poziom ufności (np. 95% ).

Bayesianie używają rozkładu a posteriori dla parametru do budowy wiarygodnych regionów. Są to po prostu regiony w przestrzeni parametrów, w których rozkład tylny jest zintegrowany, aby uzyskać określone z góry prawdopodobieństwo (np. 0,95). Wiarygodne regiony są interpretowane przez Bayesian jako regiony, które mają wysokie (np. Określone wcześniej 0,95) prawdopodobieństwo włączenia prawdziwej wartości parametru.

— Michael R. Chernick
źródło

1

Wiarygodne regiony są interpretowane przez Bayesian jako regiony, które mają wysokie (np. Określone wcześniej 0,95) prawdopodobieństwo włączenia prawdziwej wartości parametru . Jak to możliwe, jeśli parametr jest zmienną losową?

@ Procrastinator W porządku, może wolałbym, żebym powiedział, że obejmuje on dużą określoną wcześniej część rozkładu parametrów. Ale jeśli X jest zmienną losową o rozkładzie f i konstruujemy dla niej wiarygodny region, wówczas region reprezentuje prawdopodobieństwo, że realizacja zmiennej losowej będzie leżała w regionie.

— Michael R. Chernick

Zgadzam się z tym wyjaśnieniem. Ważne jest, aby wyjaśnić, że realizacja zmiennej losowej nie jest prawdziwą wartością parametru.

@Procrastinator to interesująca kwestia, którą poruszasz. Jednak moje rozumienie prawdopodobieństwa bayesowskiego jest takie, że wielu Bayesian zgadza się z klasycznymi statystykami, że istnieje jedna PRAWDA wartość tego parametru (jest ustalona, ale nieznana). To niepewność na temat tego parametru, który jest dystrybuowany z powodu naszego niedoskonałego stanu wiedzy. Więc jeśli pomyślisz o tym w ten sposób, to początkowe oświadczenie Michaela Chernicka jest ważne, prawda?

— BYS2

2

@MichaelChernick Myślę, że istnieje błędna interpretacja tego, co oznacza region wiarygodności bayesowskiej. Załóżmy, że prawdziwa wartość parametru wynosi a ty wybierasz jednolity przed . Dlatego żaden przedział wiarygodności nie zawiera prawdziwej wartości parametru, co jest sprzeczne z twoim rozumowaniem.

θ_{0} = 1

$\theta_0=1$

(1, 100)

$(1,100)$

2

Z punktu widzenia „prawdziwego świata” znajduję jedną zasadniczą różnicę między częstym a klasycznym lub bayesowskim „rozwiązaniem”, które dotyczy co najmniej trzech głównych scenariuszy. Różnica w wyborze metodologii zależy od tego, czy potrzebujesz rozwiązania, na które ma wpływ prawdopodobieństwo populacyjne, czy takiego, na które wpływa indywidualne prawdopodobieństwo. Przykłady poniżej:

Jeśli istnieje znane 5% prawdopodobieństwo, że mężczyźni powyżej 40 roku życia umrą w danym roku i będą musieli płacić składki na ubezpieczenie na życie, firma ubezpieczeniowa może wykorzystać 5% LUDNOŚCI do oszacowania kosztów, ale powiedzieć, że każdy mężczyzna powyżej 40 roku życia ma 5% szansa na śmierć ... nie ma znaczenia ... Ponieważ 5% ma 100% prawdopodobieństwo śmierci - co jest częstym podejściem. Na poziomie indywidualnym zdarzenie albo występuje (prawdopodobieństwo 100%), albo nie (prawdopodobieństwo 0%) Jednak na podstawie tych ograniczonych informacji nie można przewidzieć osób, które mają 100% prawdopodobieństwo śmierci, a 5 % „uśrednionego” prawdopodobieństwa populacji jest bezużyteczne na poziomie indywidualnym.
Powyższy argument dotyczy również pożarów w budynkach, dlatego zraszacze są wymagane we wszystkich budynkach w populacji.
Oba powyższe argumenty odnoszą się również w równym stopniu do awarii systemów informatycznych, uszkodzeń lub „włamań”. Procenty populacji są bezużyteczne, dlatego należy chronić wszystkie systemy.

— James J Finn
źródło

2

W żadnym z tych trzech przypadków nie uznaję podejścia częstokroć. Wszystkie wydają się zależeć od retrospektywnej - a zatem bezużytecznej - koncepcji prawdopodobieństwa, która nie jest stosowana w klasycznych modelach. Na przykład twierdzenie, że „zdarzenie albo nastąpi ... albo nie” jest trywialnie prawdziwe, ale niezwiązane z prawdopodobieństwami.

— whuber

0

Wybór interpretacji zależy od pytania. Jeśli chcesz poznać szanse w grze losowej, klasyczna interpretacja rozwiąże Twój problem, ale dane statystyczne są bezużyteczne, ponieważ uczciwe kości nie mają pamięci.

Jeśli chcesz przewidzieć przyszłe wydarzenie na podstawie przeszłych doświadczeń, interpretacja częstych jest poprawna i wystarczająca.

Jeśli nie wiesz, czy zdarzenie miało miejsce w przeszłości, i chcesz oszacować prawdopodobieństwo, że miało ono miejsce, musisz wziąć swoje wcześniejsze przekonania, tj. To, co już wiesz o szansie wystąpienia zdarzenia i zaktualizować swoje przekonanie po nabyciu nowe dane.

Ponieważ pytanie dotyczy stopnia przekonania, a każda osoba może mieć inne zdanie na temat priorytetów, interpretacja jest z konieczności subiektywna, czyli Bayesowska.

— Aviel Roy-Shapira
źródło