Czy istnieją przykłady, w których wiarygodne przedziały bayesowskie są oczywiście gorsze od częstych przedziałów ufności

81

Ostatnie pytanie dotyczące różnicy między zaufaniem a wiarygodnymi przedziałami skłoniło mnie do ponownego przeczytania artykułu Edwina Jaynesa na ten temat:

Jaynes, ET, 1976. „Confidence Intervals vs. Bayesian Intervals”, w: Podstawach teorii prawdopodobieństwa, wnioskowania statystycznego i statystycznych teorii nauki, WL Harper i CA Hooker (red.), D. Reidel, Dordrecht, str. 175; ( pdf )

W streszczeniu Jaynes pisze:

... przedstawiamy bayesowskie i ortodoksyjne rozwiązania sześciu typowych problemów statystycznych obejmujących przedziały ufności (w tym testy istotności oparte na tym samym rozumowaniu). W każdym przypadku okazuje się, że sytuacja jest dokładnie odwrotna, tj. Metoda bayesowska jest łatwiejsza do zastosowania i daje takie same lub lepsze wyniki. Rzeczywiście, wyniki ortodoksyjne są zadowalające tylko wtedy, gdy ściśle zgadzają się (lub dokładnie) z wynikami bayesowskimi. Nie podano jeszcze żadnego przeciwnego przykładu.

(moje podkreślenie)

Artykuł został opublikowany w 1976 roku, więc być może sprawy potoczyły się dalej. Moje pytanie brzmi: czy istnieją przykłady, w których częstość ufności częstokroć jest wyraźnie wyższa niż wiarygodny przedział bayesowski (jak na wyzwanie, które implicite podjął Jaynes)?

Przykłady oparte na błędnych wcześniejszych założeniach są nie do przyjęcia, ponieważ nie mówią nic o wewnętrznej spójności różnych podejść.

bayesian confidence-interval

— Dikran Torbacz
źródło

21

Przy raczej łagodnych założeniach (a) procedury szacowania bayesowskiego są dopuszczalne i (b) wszystkie lub prawie wszystkie dopuszczalne estymatory są bayesowskie w odniesieniu do niektórych wcześniejszych. Nic więc dziwnego, że przedział ufności bayesowskiej „daje takie same lub lepsze wyniki”. Zauważ, że moje stwierdzenia (a) i (b) są częścią częstej analizy teorii racjonalnych decyzji. Tam, gdzie częstokroć rozstaje się z Bayesianami, nie zajmuje się matematyką, a nawet procedurami statystycznymi, ale dotyczy znaczenia, uzasadnienia i prawidłowego korzystania z przełożonego dla konkretnego problemu.

— whuber

1

Czy zatem powyższy komentarz sugeruje, że odpowiedź na pytanie PO brzmi: „Nie można zbudować takich przykładów”? A może istnieje jakiś patologiczny przykład, który narusza założenia dopuszczalności?

1

@Sikikant: Dobre pytanie. Myślę, że miejscem rozpoczęcia badania jest sytuacja, w której istnieją dopuszczalne estymatory spoza Bayesa - niekoniecznie „patologiczne”, ale przynajmniej takie, które dają możliwość znalezienia „przeciwnego przykładu”.

— whuber

2

Dodałbym trochę jasności do „niepoprawnych wcześniejszych założeń ...”, stwierdzając, że odpowiedź bayesowska i częsta muszą korzystać z tych samych informacji , w przeciwnym razie porównujesz tylko odpowiedzi na dwa różne pytania. Świetne pytanie (+1 ode mnie)

— prawdopodobieństwo jest

3

patologia czy nie, prawdopodobnie byłaby to pierwsza tego typu. Bardzo chciałbym zobaczyć ten przykład, ponieważ te „patologie” zwykle mają dla nich dobry element uczenia się

— prawdopodobieństwo

52

Powiedziałem wcześniej, że spróbuję odpowiedzieć na pytanie, więc proszę ...

Jaynes był trochę niegrzeczny w swoim artykule, ponieważ częsty przedział ufności nie jest zdefiniowany jako przedział, w którym możemy oczekiwać, że prawdziwa wartość statystyki leży z dużym (określonym) prawdopodobieństwem, więc nie jest zaskakujące, że sprzeczności powstają, jeśli są interpretowane tak, jakby były. Problem polega na tym, że często jest to sposób, w jaki przedziały ufności są stosowane w praktyce, ponieważ przedział, który najprawdopodobniej zawiera prawdziwą wartość (biorąc pod uwagę to, co możemy wywnioskować z naszej próbki danych) jest tym, czego często chcemy.

Kluczową kwestią jest dla mnie to, że kiedy zadawane jest pytanie, najlepiej jest mieć bezpośrednią odpowiedź na to pytanie. To, czy wiarygodne przedziały bayesowskie są gorsze niż częste przedziały ufności, zależy od tego, jakie pytanie zostało zadane. Jeśli zadane pytanie brzmiało:

(a) „Daj mi przedział, w którym prawdziwa wartość statystyki leży z prawdopodobieństwem p”, wtedy wydaje się, że częsty nie jest w stanie odpowiedzieć bezpośrednio na to pytanie (a to wprowadza rodzaj problemów, które Jaynes omawia w swojej pracy), ale Bayesian może i dlatego wiarygodny przedział bayesowski przewyższa częstość ufności częstokroć w przykładach podanych przez Jaynesa. Ale to tylko dlatego, że jest to „złe pytanie” dla częstych.

(b) „Daj mi przedział czasu, w którym, gdyby eksperyment powtórzono wiele razy, prawdziwa wartość statystyki mieściłaby się w p * 100% takich przedziałów”, to odpowiedź dla częstych jest właśnie tym, czego chcesz. Bayesian może również być w stanie udzielić bezpośredniej odpowiedzi na to pytanie (chociaż może to nie być po prostu oczywisty wiarygodny odstęp). Komentarz Whubera do pytania sugeruje, że tak jest.

Zasadniczo chodzi zatem o prawidłowe określenie pytania i właściwą interpretację odpowiedzi. Jeśli chcesz zadać pytanie (a), skorzystaj z wiarygodnego przedziału bayesowskiego, jeśli chcesz zadać pytanie (b), skorzystaj z częstego przedziału ufności.

— Dikran Torbacz
źródło

2

Dobrze powiedziane, zwłaszcza o tym, na jakie pytanie faktycznie odpowiada CI. W artykule Jaynesa wspomina jednak, że CI (i najczęstsze procedury) zostały zaprojektowane tak, aby dobrze działały „W dłuższej perspektywie” (np. Jak często widzisz lub „dla dużych n rozkład jest w przybliżeniu ... "założenia w metodach częstych?), ale istnieje wiele takich procedur, które mogą to zrobić. Myślę, że w tym celu można zastosować techniki częste (konsekwencja, uprzedzenie, zbieżność itp.) Do oceny różnych procedur bayesowskich, między którymi trudno jest zdecydować.

n \to \infty

$n \rightarrow \infty$

— probabilityislogic

1

„Jaynes był trochę niegrzeczny w swoim artykule ...” Myślę, że punktem, który Jaynes próbował zrobić (lub punktem, który z tego wyciągnąłem) jest to, że przedziały ufności są używane do odpowiedzi na pytanie a) w dużej liczbie przypadki (spekulowałbym, że każdy, kto ma tylko szkolenie częstokroć , skorzysta z CI, aby odpowiedzieć na pytanie a) i będzie myślał, że jest to odpowiednia częstokroć odpowiedź)

— probabilityislogic

2

tak, przez „trochę niegrzeczny” miałem na myśli to, że Jaynes przedstawiał to w dość złośliwie konfrontacyjny (ale także rozrywkowy) sposób (a przynajmniej tak to czytam). Ale gdyby tego nie zrobił, prawdopodobnie nie miałoby to żadnego wpływu.

— Dikran Torbacz

23

Jest to „dopracowany” przykład podany w książce napisanej przez Larry'ego Wassermana Wszystkie statystyki na stronie 216 ( 12.8 Mocne i słabe strony wnioskowania bayesowskiego ). Zasadniczo podaję to, czego Wasserman nie ma w swojej książce 1) wyjaśnienie tego, co się faktycznie dzieje, zamiast obalenia linii; 2) częste odpowiedzi na pytanie, których Wasserman dogodnie nie udziela; oraz 3) wykazanie, że równoważne zaufanie obliczone przy użyciu tych samych informacji cierpi z powodu tego samego problemu.

W tym przykładzie podaje następującą sytuację

Obserwacja, X, z rozkładem próbkowania: $(X|\theta)\sim N(\theta,1)$
$(\theta)\sim N(0,1)$ $\tau^2$ $\tau^2=1$

$\theta$ $\theta$

... Co powinniśmy wyciągnąć z tego wszystkiego? Ważne jest, aby zrozumieć, że metody częste i bayesowskie odpowiadają na różne pytania. Aby połączyć wcześniejsze przekonania z danymi w zasadniczy sposób, skorzystaj z wnioskowania bayesowskiego. Aby konstruować procedury o gwarantowanej wydajności w długim okresie, takie jak przedziały ufności, używaj metod częstych ... (p217)

A potem idzie dalej bez żadnego wyjaśnienia ani wyjaśnienia, dlaczego metoda bayesowska wypadła tak źle. Co więcej, nie podaje odpowiedzi z częstych podejść, a jedynie szerokie stwierdzenie o „długoterminowej” - klasycznej taktyce politycznej (podkreśl swoją siłę + słabość innych, ale nigdy nie porównuj jak dla podobnych).

$\tau=1$

$\theta\sim N(0,1)$ $\theta$ $p(\theta)\propto 1$ $Y\sim N(\theta,1)$ $X$ $\theta$

p (θ | Y) \propto p (θ) p (Y | θ) \propto e x p (- \frac{1}{2} (Y - θ)^{2})

$p(\theta|Y)\propto p(\theta)p(Y|\theta)\propto exp\Big(-\frac{1}{2}(Y-\theta)^2\Big)$

$(\theta|Y)\sim N(Y,1)$ $X$ $0$ $0$ $X$

$\theta$ $\overline{x}=\frac{0+X}{2}=\frac{X}{2}$

(\bar{x} | θ) \sim N (θ, \frac{1}{2})

$(\overline{x}|\theta)\sim N(\theta,\frac{1}{2})$

$(1-\alpha)\text{%}$

\frac{1}{2} X \pm Z_{α / 2} \frac{1}{\sqrt{2}}

$\frac{1}{2}X\pm Z_{\alpha/2}\frac{1}{\sqrt{2}}$

$(1-\alpha)\text{%}$ $\theta$

c X \pm \sqrt{c} Z_{α / 2}

$cX\pm \sqrt{c}Z_{\alpha/2}$

$c=\frac{\tau^{2}}{1+\tau^{2}}$ $\tau^{2}=1$ $c=\frac{1}{2}$

\frac{1}{2} X \pm Z_{α / 2} \frac{1}{\sqrt{2}}

$\frac{1}{2}X\pm Z_{\alpha/2}\frac{1}{\sqrt{2}}$

$p(\theta)\propto 1$ $X \pm Z_{\alpha/2})$

$X=0$ $0$ $\theta=4$ $X\leq 0$ $\theta=4$ . W rzeczywistości możesz pokazać, że ten przykład jest zasadniczo równoważny z pokazaniem, że średnia arytmetyczna ma nieograniczoną funkcję wpływu.

$\tau=1$ $\tau^2=\frac{1}{N}$ $(N=0,1,2,3,\dots)$ $N$ $X$ $0$ $X$ $\theta$ $0$ $\theta$ $0$

— prawdopodobieństwo prawdopodobieństwa
źródło

1

Dziękuję za analizę. AFAICS to tylko przykład problemu spowodowanego nieprawidłowym (informacyjnym) wcześniejszym założeniem i nie mówi nic o wewnętrznej spójności podejścia bayesowskiego?

— Dikran Torbacz

1

0

$0$

θ

$\theta$

0

$0$

X

$X$

0

$0$

X

$X$

θ

$\theta$

θ

$\theta$

X

$X$

0

$0$

X

$X$

0

$0$

θ

$\theta$

θ

$\theta$

— probabilityislogic

10

Keith Winstein,

EDYCJA: Aby wyjaśnić, ta odpowiedź opisuje przykład podany w Keith Winstein Odpowiedź na króla z okrutną grą statystyczną. Zarówno odpowiedzi bayesowskie, jak i częste korzystają z tych samych informacji, co ma na celu zignorowanie informacji o liczbie uczciwych i niesprawiedliwych monet przy konstruowaniu przedziałów. Jeśli ta informacja nie zostanie zignorowana, częsty powinien użyć zintegrowanego prawdopodobieństwa beta-dwumianowego jako rozkładu próbkowania przy konstruowaniu przedziału ufności, w którym to przypadku przedział ufności Cloppera-Pearsona nie jest odpowiedni i musi zostać zmodyfikowany. Podobna korekta powinna nastąpić w rozwiązaniu Bayesa.

EDYCJA: Wyjaśniłem również początkowe użycie Cloppera Pearson Interval.

EDYCJA: niestety moja alfa jest niewłaściwa, a interwał mojego cloppera-pearsona jest nieprawidłowy. Moje najskromniejsze przeprosiny dla @whuber, który słusznie to zauważył, ale z którym początkowo się nie zgadzałem i ignorowałem.

Metoda CI korzystająca z metody Cloppera Pearsona jest bardzo dobra

$\theta$

[P r (B i (1, θ) \geq X) \geq \frac{α}{2}] \cap [P r (B i (1, θ) \leq X) \geq \frac{α}{2}]

$[Pr(Bi(1,\theta)\geq X)\geq\frac{\alpha}{2}] \cap [Pr(Bi(1,\theta)\leq X)\geq\frac{\alpha}{2}]$

$X=1$ $Pr(Bi(1,\theta)\geq 1)=\theta$ $Pr(Bi(1,\theta)\leq 1)=1$ $\theta\geq\frac{\alpha}{2}$ $1\geq\frac{\alpha}{2}$ $X=1$ $X=0$ $Pr(Bi(1,\theta)\geq 0)=1$ $Pr(Bi(1,\theta)\leq 0)=1-\theta$ $1-\theta \geq\frac{\alpha}{2}$ $\theta\leq 1-\frac{\alpha}{2}$ $X=0$ $[0.025,1]$ $X=1$ $[0,0.975]$ $X=0$

Zatem osoba korzystająca z przedziału ufności Cloppera Pearsona nigdy nie zostanie ścięta. Po zaobserwowaniu interwału jest to zasadniczo cała przestrzeń parametrów. Ale interwał CP robi to, zapewniając 100% pokrycia przypuszczalnie 95% interwału! Zasadniczo częste „oszukują”, dając 95% przedział ufności większy zasięg niż on / ona został poproszony (chociaż kto by nie oszukiwał w takiej sytuacji? Gdybym to był ja, dałbym całość [0, 1] interwał). Gdyby król poprosił o dokładnie 95% CI, ta metoda częstokroć nie udałaby się bez względu na to, co się faktycznie wydarzyło (być może jest lepsza?).

Co z interwencją bayesowską? (w szczególności interwał Bayesa z najwyższym odstępstwem tylnym (HPD))

$(\theta|X)\sim Beta(1+X,2-X)$ $Pr(\theta \geq \theta^{e} | x=1) = 1-(\theta^{e})^{2}$ $Pr(\theta \leq \theta^{e} | x=0) = 1-(1-\theta^{e})^{2}$ $\theta^{e}=\sqrt{0.05}\approx 0.224$ $X=1$ $\theta^{e}= 1-\sqrt{0.05}\approx 0.776$ $X=0$ $(0,0.776)$ $X=0$ $(0.224,1)$ $X=1$

$\frac{1}{10^{12}+1}\times\frac{1}{10}\approx 0$

$0.1$

$0.025$ $0.975$

Aby zacytować prawdziwy 95% przedział ufności, z definicji powinny istnieć pewne przypadki (tj. Przynajmniej jeden) obserwowanego przedziału, które nie zawierają prawdziwej wartości parametru . W przeciwnym razie, jak uzasadnić znacznik 95%? Czy nazwanie go przedziałem 90%, 50%, 20%, a nawet 0% byłoby nieważne?

Nie rozumiem, jak proste jest stwierdzenie „w rzeczywistości oznacza 95% lub więcej” bez dodatkowych ograniczeń. Wynika to z faktu, że oczywistym rozwiązaniem matematycznym jest cała przestrzeń parametrów, a problem jest trywialny. załóżmy, że chcę 50% CI? jeśli ogranicza tylko fałszywe negatywy, to cała przestrzeń parametrów jest poprawnym CI, używając tylko tych kryteriów.

$\text{100%}$ $X=0$ $100\times\frac{10^{12}+\frac{9}{10}}{10^{12}+1}\text{%} > \text{95%}$ $X=1$

Na zakończenie wydaje się nieco dziwne poprosić o przedział niepewności, a następnie ocenić ten przedział, używając prawdziwej wartości, której nie byliśmy pewni. „Bardziej sprawiedliwe” porównanie, zarówno pod względem pewności, jak i wiarygodnych przedziałów, wydaje mi się prawdą stwierdzenia niepewności podawanego z tym przedziałem .

— prawdopodobieństwo prawdopodobieństwa
źródło

α

$\alpha$

1 - α

$1-\alpha$

10^{12}

$10^{12}$

α

$\alpha$

1 - α

$1-\alpha$

10^{12}

$10^{12}$

α

$\alpha$

1 - α

$1-\alpha$

1 \geq \frac{α}{2}

$1 \geq \frac{\alpha}{2}$

1 - θ

$1-\theta$

θ

$\theta$

Masz na myśli odpowiedź @Keith Winstein?

— whuber

@ Whuber, tak, mam na myśli odpowiedź Keitha Winsteina.

— probabilityislogic

9

Problem zaczyna się od zdania:

Przykłady oparte na błędnych wcześniejszych założeniach są nie do przyjęcia, ponieważ nie mówią nic o wewnętrznej spójności różnych podejść.

No cóż, skąd wiesz, że twój przeor jest poprawny?

Weźmy przykład wnioskowania bayesowskiego w filogenezie. Prawdopodobieństwo co najmniej jednej zmiany jest powiązane wzorem z czasem ewolucji (długość gałęzi t)

P = 1 - e^{- \frac{4}{3} u t}

$P=1-e^{-\frac{4}{3}ut}$

gdzie u jest stopą podstawienia.

Teraz chcesz stworzyć model ewolucji, oparty na porównaniu sekwencji DNA. Zasadniczo próbujesz oszacować drzewo, w którym próbujesz modelować wielkość zmiany między sekwencjami DNA tak blisko, jak to możliwe. Powyżej P jest szansa co najmniej jednej zmiany w danej gałęzi. Modele ewolucyjne opisują szanse zmiany między dowolnymi dwoma nukleotydami iz tych modeli ewolucyjnych wyprowadzana jest funkcja estymacji, albo p jako parametr, albo t jako parametr.

Nie masz rozsądnej wiedzy i wybrałeś mieszkanie przed p. To z natury implikuje wykładniczy spadek przed t. (Staje się to jeszcze bardziej problematyczne, jeśli chcesz ustawić mieszkanie przed t. Implikowane wcześniejsze przed p jest silnie zależne od tego, gdzie odciąłeś zakres t.)

Teoretycznie t może być nieskończony, ale jeśli zezwolisz na nieskończony zasięg, obszar pod jego funkcją gęstości równa się również nieskończoności, więc musisz zdefiniować punkt skrócenia dla wcześniejszego. Teraz, gdy wybrałeś wystarczająco duży punkt obcięcia, nie jest trudno udowodnić, że oba końce wiarygodnego przedziału wzrastają, aw pewnym momencie prawdziwa wartość nie jest już zawarta w wiarygodnym przedziale. O ile nie masz bardzo dobrego pomysłu na temat wcześniejszych metod, nie gwarantuje się, że metody bayesowskie będą równe lub lepsze od innych metod.

ref: Joseph Felsenstein: Wnioskowanie o filogenezie, rozdział 18

Na marginesie, mam już dość tej kłótni Bayesian / Frequentist. Oba są różnymi strukturami i żadna z nich nie jest Prawdą Absolutną. Klasyczne przykłady pro bayesowskich metod niezmiennie pochodzą z obliczeń prawdopodobieństwa, a żaden częsty nie zaprzeczy im. Klasyczny argument przeciwko metodom bayesowskim niezmiennie obejmuje arbitralny wybór przeora. A rozsądne priory są zdecydowanie możliwe.

Wszystko sprowadza się do właściwego użycia którejkolwiek z metod we właściwym czasie. Widziałem bardzo niewiele argumentów / porównań, w których obie metody zostały zastosowane poprawnie. Założenia jakiejkolwiek metody są bardzo niedoceniane i zdecydowanie zbyt często ignorowane.

EDYCJA: aby wyjaśnić, problem polega na tym, że oszacowanie oparte na p różni się od oszacowania opartego na tw ramach bayesowskich podczas pracy z nieinformacyjnymi priory (co jest w wielu przypadkach jedynym możliwym rozwiązaniem). Nie jest to prawdą w ramach ML dla wnioskowania filogenetycznego. Nie jest to kwestia złego uprzedzenia, jest nieodłącznym elementem metody.

— Joris Meys
źródło

3

Można interesować się różnicami między statystykami bayesowskimi i częstymi, bez kłótni. Ważne jest, aby znać zarówno wady, jak i zalety preferowanego podejścia. Wykluczyłem przede wszystkim priory, ponieważ nie jest to problem sam w sobie, ale tylko kwestia GIGO. To samo dotyczy statystyki osób często odwiedzających, na przykład poprzez założenie i niepoprawny rozkład parametryczny danych. To nie byłaby krytyka metodologii częstokroć, tylko konkretna metoda. BTW, nie mam szczególnego problemu z niewłaściwymi priory.

— Dikran Marsupial

3

Pierwszy przykład Jaynesa: żaden statystyk przy zdrowych zmysłach nigdy nie użyje testu F i testu T dla tego zestawu danych. Poza tym porównuje test dwustronny do P (b> a), co nie jest tą samą testowaną hipotezą. Jego przykład jest niesprawiedliwy, co zasadniczo przyznaje później. Poza tym nie można porównywać „frameworków”. O czym więc mówimy? ML, REML, LS, metody karane, ...? przedziały dla współczynników, statystyk, prognoz, ...? Możesz również zapytać, czy usługa luterańska jest równoważna czy lepsza niż usługi szyickie. Mówią o tym samym Bogu.

— Joris Meys,

Czy możesz wyjaśnić, jakie są twoje dane i jakie parametry oszacowałbyś w swoim modelu? Jestem trochę zdezorientowany w tej kwestii. Czy możesz użyć $$ zamiast $, aby wyśrodkować formułę? Rozmiar czcionki jest obecnie bardzo mały.

@Sikikant: Przykład w książce Felsensteinsa oparty jest na modelu Jukesa-Cantora dla ewolucji DNA. Dane to sekwencje DNA. Chcesz oszacować prawdopodobieństwo zmiany w sekwencji, która jest związana z długością gałęzi na podstawie wspomnianej formuły. Długości gałęzi są definiowane jako czas ewolucji: im większa szansa na zmiany, tym więcej czasu upłynęło między przodkiem a bieżącym stanem. Przepraszam, ale nie mogę streścić całej teorii stojącej za ML i bayesowskim wnioskowaniem filogenetycznym w jednym poście. Felsenstein potrzebował do tego połowy książki.

— Joris Meys,

Chyba chciałem tylko, żebyś wyjaśnił, jakie zmienne w twoim równaniu były danymi, a które były parametrem, ponieważ nie było jasne z twojego postu, szczególnie dla kogoś takiego jak ja, który jest osobą z zewnątrz. Nadal jestem zagubiony, ale chyba muszę przeczytać książkę, aby dowiedzieć się więcej.

8

Częstotliwościowe przedziały ufności ograniczają odsetek fałszywych alarmów (błędy typu I) i gwarantują, że ich zasięg będzie ograniczony przez parametr ufności, nawet w najgorszym przypadku. Bayesowskie przedziały wiarygodności nie.

Jeśli więc zależy Ci na wynikach fałszywie dodatnich i musisz je powiązać, przedziały ufności to podejście, które będziesz chciał zastosować.

Załóżmy na przykład, że masz złego króla ze dworem 100 dworzan i kurtyzan, a on chce zagrać z nimi w okrutną grę statystyczną. Król ma worek bilionów uczciwych monet plus jedną nieuczciwą monetę, której prawdopodobieństwo trafienia wynosi 10%. Zamierza wykonać następującą grę. Najpierw losuje losowo równomiernie monetę z torby.

Następnie moneta zostanie przekazana dookoła pokoju 100 osób i każda z nich będzie zmuszona przeprowadzić na niej eksperyment, prywatnie, a następnie każda osoba określi 95% przedział niepewności co do prawdopodobieństwa, że główka monety jest prawdopodobna.

Każdy, kto poda przedział, który reprezentuje fałszywie dodatni - tj. Przedział, który nie obejmuje prawdziwej wartości prawdopodobieństwa głów - zostanie ścięty.

Gdybyśmy chcieli wyrazić funkcję rozkładu a posteriori / prawdopodobieństwa masy monety, to oczywiście robi to przedział wiarygodności. Odpowiedzią będzie zawsze przedział [0,5, 0,5] niezależnie od wyniku. Nawet jeśli przerzucisz zero głów lub jedną głowę, nadal powiesz [0,5, 0,5], ponieważ jest o wiele bardziej prawdopodobne, że król wyciągnął uczciwą monetę i miałeś 1/1024 dzień, zdobywając dziesięć głów z rzędu , niż że król wyciągnął niesprawiedliwą monetę.

Nie jest to więc dobry pomysł dla dworzan i kurtyzanów! Ponieważ po wyciągnięciu nieuczciwej monety cały pokój (wszystkie 100 osób) będzie zły i wszyscy zostaną ścięci.

W świecie, w którym najważniejszą rzeczą są fałszywe trafienia, potrzebujemy absolutnej gwarancji, że odsetek fałszywych trafień będzie mniejszy niż 5%, bez względu na to, która moneta zostanie wylosowana. Następnie musimy użyć przedziału ufności, takiego jak Blyth-Still-Casella lub Clopper-Pearson, który działa i zapewnia co najmniej 95% pokrycia, niezależnie od prawdziwej wartości parametru, nawet w najgorszym przypadku . Jeśli wszyscy zastosują tę metodę zamiast tego, bez względu na to, która moneta zostanie wylosowana, na koniec dnia możemy zagwarantować, że spodziewana liczba niewłaściwych osób nie będzie większa niż pięć.

Tak więc chodzi o to: jeśli twoje kryterium wymaga ograniczenia fałszywych trafień (lub równoważnie, gwarantując pokrycie), musisz przejść z przedziałem ufności. Tak robią. Przedziały wiarygodności mogą być bardziej intuicyjnym sposobem wyrażania niepewności, mogą całkiem dobrze radzić sobie z częstymi analizami, ale nie zapewnią gwarantowanego ograniczenia fałszywych alarmów, które dostaniesz, gdy idziesz o to poprosić.

(Oczywiście, jeśli troszczysz się również o fałszywe negatywy, będziesz potrzebować metody, która gwarantuje również te ...)

— Keith Winstein
źródło

6

Pomyśl o tym, jednak ten szczególny przykład jest niesprawiedliwy, ponieważ częstokroć podejście może uwzględniać względne koszty kosztów fałszywie dodatnich i fałszywie ujemnych, ale podejście bayesowskie nie. Prawidłowe postępowanie zgodnie z teorią decyzji Bayesa to podanie odstępu wynoszącego [0,1], ponieważ nie ma żadnej kary związanej z fałszywymi negatywami. Zatem w podobnym porównaniu ram, żaden z Bayesian też nigdy nie zostałby ścięty. Problem ograniczania fałszywych trafień daje mi jednak kierunek, w którym muszę szukać odpowiedzi na wyzwanie Jaynesa.

— Dikran Marsupial

1

Zauważ też, że jeśli wybrana moneta jest wystarczająco często odwracana, to ostatecznie przedział ufności Bayesa zostanie wyśrodkowany na częstotliwości długich serii głów dla danej monety, a nie na wcześniejszej. Gdyby moje życie zależało od przedziału zawierającego prawdziwe prawdopodobieństwo głowy, nie rzuciłbym monetą ani razu!

— Dikran Marsupial

1

Zastanawiając się nad tym nieco więcej, ten przykład jest nieważny, ponieważ kryterium zastosowane do pomiaru sukcesu nie jest takie samo, jak implikowane przez pytanie postawione przez króla. Problem polega na tym, że „bez względu na to, która moneta jest wylosowana”, klauzula ma na celu wyzwolenie dowolnej metody, która wykorzystuje wcześniejszą wiedzę na temat rzadkości monet tendencyjnych. Tak się składa, że Bayesains może również wyprowadzać granice (np. Granice PAC) i jeśli zostanie o to poproszony, podejrzewam, że odpowiedź byłaby taka sama jak interwał Cloppera-Pearsona. Aby być rzetelnym testem, należy podać te same informacje dla obu podejść.

— Dikran Marsupial

1

Dikran, nie muszą istnieć „Bayesianie” i „Częstotliwość”. Nie są niekompatybilnymi szkołami filozofii, do których można przypisać tylko jedną! Są to narzędzia matematyczne, których skuteczność można wykazać we wspólnych ramach teorii prawdopodobieństwa. Chodzi mi o to, że JEŻELI wymóg jest bezwzględnie związany z fałszywie dodatnimi bez względu na prawdziwą wartość parametru, TO przedział ufności jest metodą, która to osiąga. Oczywiście wszyscy zgadzamy się co do tych samych aksjomatów prawdopodobieństwa i tę samą odpowiedź można uzyskać na wiele sposobów.

— Keith Winstein,

1

[0.1, 0.5]

$[0.1,0.5]$

0.1

$0.1$

0.5

$0.5$

100% \geq 95%

$\text{100%} \geq \text{95%}$

— probabilityislogic

0

istnieją przykłady, w których częstość ufności częstokroć jest wyraźnie wyższa niż wiarygodny przedział bayesowski (jak na wyzwanie niejawnie postawione przez Jaynesa).

$\theta$ $10$ $\theta$ $1$ $\theta$

Bernardo zaproponował „referencję przed”, która ma być stosowana jako standard komunikacji naukowej [a nawet „referencyjny wiarygodny przedział” ( Bernardo - obiektywne wiarygodne regiony )]. Zakładając, że jest to „bayesowskie” podejście, teraz pytanie brzmi: kiedy przedział jest lepszy od drugiego? Częstotliwościowe przedziały bayesowskie nie zawsze są optymalne, ale nie są też własności bayesowskie „częstego” przedziału częstokształtnego
(a propos, jaki jest „przedział częstościowy”?)

— Stéphane Laurent
źródło

Spekuluję, ale podejrzewam, że ta odpowiedź na pewno zostanie potraktowana tak samo, jak inni. Ktoś po prostu będzie argumentował, że jest to kwestia złego wyboru wcześniejszych, a nie jakiejś nieodłącznej słabości procedur bayesowskich, która moim zdaniem częściowo próbuje uniknąć uzasadnionej krytyki.

— kardynał

Komentarz kardynała @ jest słuszny. Przeor jest tutaj o rząd wielkości, co czyni krytykę bardzo słabą. Wcześniejsze informacje mają również znaczenie dla częstych; to, co wiesz a priori, powinno określać np. jakie szacunki i statystyki testowe są używane. Jeśli te wybory są oparte na informacjach, które są niepoprawne o rząd wielkości, należy oczekiwać słabych wyników; bycie bayesowskim lub częstym nie wchodzi w to.

— gość

Mój „przykład” nie był ważną częścią mojej odpowiedzi. Ale jaki jest dobry wybór wcześniej? Łatwo jest wyobrazić sobie przeora, którego poparcie zawiera prawdziwy parametr, ale tył nie, więc interwał częstych jest lepszy?

— Stéphane Laurent,

Kardynał i gość mają rację, moje pytanie wyraźnie zawierało: „Przykłady oparte na błędnych wcześniejszych założeniach są niedopuszczalne, ponieważ nie mówią nic o wewnętrznej spójności różnych podejść”. z dobrego powodu. Częstotliwościowe testy mogą opierać się na błędnych założeniach, jak również na testach bayesowskich (ramy bayesowskie określają założenia bardziej wyraźnie); pytanie brzmi, czy ramy mają słabości. Także jeśli prawdziwa wartość była wcześniejsza, ale nie późniejsza, oznaczałoby to, że obserwacje wykluczałyby możliwość, że prawdziwa wartość jest poprawna!

— Dikran Torbacz

1

Może powinienem edytować swoją odpowiedź i usunąć mój „przykład” - to nie jest poważna część mojej odpowiedzi. Moja odpowiedź dotyczyła głównie znaczenia „bayesowskiego” podejścia. Jak nazywacie podejście bayesowskie? To podejście wymaga wyboru subiektywnego przeora lub wykorzystuje automatyczny sposób, aby wybrać nieinformacyjny przeor? W drugim przypadku należy wspomnieć o pracy Bernardo. Po drugie, nie zdefiniowałeś relacji „wyższości” między interwałami: kiedy mówisz, że interwał jest lepszy od innego?

— Stéphane Laurent,