Obserwujesz k głów z n rzutów. Czy monety są uczciwe?

Zadano mi to pytanie z w wywiadzie. Czy istnieje „poprawna” odpowiedź? $(n, k) = (400, 220)$

Załóżmy, że rzuty są identyczne, a prawdopodobieństwo głów wynosi $p=0.5$ . Rozkład liczby głów w 400 rzutach powinien następnie być zbliżony do normalnego (200, 10 ^ 2), tak aby 220 głów było o 2 standardowe odchylenia od średniej. Prawdopodobieństwo zaobserwowania takiego wyniku (tj. Więcej 2 SD od średniej w obu kierunkach) wynosi nieco mniej niż 5%.

Ankieter powiedział mi zasadniczo: „jeśli zaobserwuję coś> = 2 SD od średniej, dochodzę do wniosku, że dzieje się coś innego. Obstawiłbym, że moneta jest uczciwa”. To rozsądne - w końcu to właśnie robi większość testów hipotez. Ale czy to koniec historii? Dla ankietera była to „poprawna” odpowiedź. Pytam tutaj, czy jakiś niuans jest uzasadniony.

Nie mogłem nie wspomnieć, że stwierdzenie, że moneta jest niesprawiedliwa, jest dziwnym wnioskiem w tym kontekście rzucania monetą. Czy mam rację, że tak mówię? Spróbuję wyjaśnić poniżej.

Przede wszystkim ja - i przypuszczam, że większość ludzi - mam mocne zdanie o monetach: najprawdopodobniej będą uczciwe. Oczywiście zależy to od tego, co rozumiemy przez „sprawiedliwy” - jedną z możliwości byłoby zdefiniowanie „sprawiedliwego” jako „o prawdopodobieństwie„ zbliżenia ”głów do 0,5, powiedzmy między 0,49 a 0,51”.

(Można również zdefiniować „fair” w ten sposób, że prawdopodobieństwo głowy jest dokładnie 0,50, w którym to przypadku konieczności doskonale sprawiedliwy moneta wydaje się raczej un prawdopodobne).

Twój przeor może zależeć nie tylko od twoich ogólnych przekonań na temat monet, ale także od kontekstu. Jeśli wyciągniesz monetę z własnej kieszeni, możesz być praktycznie pewien, że jest sprawiedliwa; jeśli twój przyjaciel magik wyciągnie go ze swojego, twój przeor może przyłożyć większą wagę do monet dwugłowych.

W każdym razie łatwo jest wymyślić rozsądne priory, które (i) stawiają duże prawdopodobieństwo uczciwości monety i (ii) prowadzą twój tyłek do całkiem podobnego, nawet po zaobserwowaniu 220 głów. Doszedłbyś do wniosku, że moneta najprawdopodobniej była sprawiedliwa, pomimo zaobserwowania wyniku 2 SD od średniej.

W rzeczywistości możesz również skonstruować przykłady, w których obserwowanie 220 głów w 400 rzutach sprawia, że twój tylny kładzie większy nacisk na uczciwość monety, na przykład jeśli wszystkie nieuczciwe monety mają prawdopodobieństwo głów w . $\{0, 1\}$

Czy ktoś może rzucić na to trochę światła?

Po napisaniu tego pytania przypomniałem sobie, że słyszałem wcześniej o tej ogólnej sytuacji - czy to nie „paradoks” Lindleya ?

Whuber umieścił w komentarzach bardzo interesujący link: możesz załadować kostkę , ale nie możesz nastawiać monety . Od strony 3:

Nie ma sensu stwierdzać, że moneta ma prawdopodobieństwo p głów, ponieważ można ją całkowicie określić na podstawie sposobu, w jaki jest rzucana - chyba że zostanie rzucona wysoko w powietrze z szybkim wirowaniem i złapana w powietrze za pomocą bez podskakiwania, w którym to przypadku p = 1/2.

Całkiem fajne! To wiąże się z moim pytaniem w ciekawy sposób: załóżmy, że wiemy, że moneta „jest rzucana wysoko w powietrze z gwałtownym obrotem i chwytana w powietrze bez podskakiwania”. Zatem zdecydowanie nie powinniśmy odrzucać hipotezy, że moneta jest uczciwa (gdzie „sprawiedliwy” oznacza teraz „posiadanie p = 1/2 przy rzuceniu w sposób opisany powyżej”), ponieważ faktycznie dysponujemy pierwszeństwem, które stawia wszelkie prawdopodobieństwo na monety są uczciwe. Może to w pewnym stopniu uzasadnia, dlaczego nie czuję się dobrze odrzucając zero po zaobserwowaniu 220 głów.

— Adrian
źródło

Czy zmieniłaby się jakakolwiek część twojego pytania, gdybyś interpretował „monetę” jako metaforę jakiegoś binarnego procesu, o którym nie miałeś wcześniej wiedzy?

— whuber

@whuber To dobre pytanie. Myślę, że w takim przypadku byłbym o wiele bardziej skłonny do „odrzucenia, gdy p <= 0,05”, chociaż nie jestem całkiem pewien, jak to sobie usprawiedliwić.

— Adrian

Kolejną kwestią, która mnie niepokoi, jest to, że osoba zadająca pytanie była zainteresowana hipotezą, że p = 0,50 dokładnie. Ale jeśli pomyślisz o ciągłym rozkładzie p, prawdopodobieństwo to będzie zerowe, niezależnie od tego, co zaobserwujesz. Wydaje mi się, że o wiele bardziej znaczące jest wydawanie oświadczeń o p należącym do pewnego przedziału. Byłby to problem w sytuacji, gdy nie miałem wcześniejszej wiedzy i zdecydowałem się na przykład na użycie munduru.

— Adrian

To ma sens. Pytanie skupiające się na monetach jest jednak nieco rozpraszające, ponieważ odpowiedzi na takie pytania zwykle przekształcają się w dyskusje na temat fizyki (i sztuczki) rzucania monetami. Możesz być zszokowany tym, jak rzeczywista sytuacja może być silna dla twoich mocnych priorów, w zależności od tego, w jaki sposób rzutowana jest moneta. „Nie ma sensu mówić, że moneta ma prawdopodobieństwo głów”

p

$p$ .

— whuber

@Adrian DJC MacKay omawia ten dokładny problem (z n = 250, k = 140) w swoim darmowym podręczniku pod tym linkiem: inference.phy.cam.ac.uk/itprnn/book.pdf (str. 63). Interesujące może być przeczytaj co mówi. Dochodzi do podobnego wniosku.

— Flądrowiec

Odpowiedzi:

Standardowym bayesowskim sposobem rozwiązania tego problemu (bez normalnych przybliżeń) jest wyraźne określenie swojego przeora, połączenie go z prawdopodobieństwem, które jest rozpowszechniane w wersji beta. Następnie zintegruj swój tył około 50%, powiedz dwa odchylenia standardowe lub 49–51% lub cokolwiek zechcesz.

Jeśli twoje wcześniejsze przekonanie jest ciągłe w stosunku do [0,1] - np. Beta (100,100) (ta stawia dużą masę na mniej więcej uczciwych monetach) - prawdopodobieństwo, że moneta jest uczciwa, wynosi zero, ponieważ prawdopodobieństwo jest również ciągłe [0 , 1].

Nawet jeśli prawdopodobieństwo, że moneta jest uczciwa, wynosi zero, zwykle możesz odpowiedzieć na każde pytanie, na które miałbyś odpowiedzieć, z powodu uprzedzenia. Na przykład, jaka jest przewaga kasyna, biorąc pod uwagę rozkład późniejszy prawdopodobieństw monet.

— Neil G.
źródło

+1, ale chciałbym trochę uzupełnić tę odpowiedź. Załóżmy, że zdefiniowaliśmy uczciwą monetę na jak sugeruje PO, i chcemy, aby tak było w przypadku naszego wcześniejszego prawdopodobieństwa. Zatem rozsądnym wcześniejszym jest , tak żeBiorąc pod uwagę dane w pytaniu, rozkład tylny staje się a prawdopodobieństwo tylne uczciwej monety jest nadal bardzo duże:

0.49 < p < 0.51

$0.49 < p < 0.51$

99 %

$99\%$

p \sim Beta (8300, 8300)

$p \sim \text{Beta}(8300, 8300)$

P (p \in (0.49, 0.51)) = 0.99003.

$P(p \in (0.49, 0.51)) = 0.99003.$

p | data \sim Beta (8300 + 220, 8300 + 180)

$p|\text{data} \sim \text{Beta}(8300+220, 8300+180)$

P (p \in (0.49, 0.51) | data) = 0.9886.

$P(p \in (0.49, 0.51)|\text{data}) = 0.9886.$

— knrumsey

Powiedzmy dla Dystrybucji Bernoulliego, w tym przypadku rzutu monetą.

Oczywiście jest to rozkład dwumianowy i rzeczywiście jest zbliżony do . $B(n=400,p=0.5)$ $N(\mu=200,\sigma^2=100)$

Oczywiście ankieter pyta o wynik przy przedziale ufności dla lub wartość . $k$ $95\%$ $B(n=400,p=0.5)$ $p$ $B(n=400,p=0.5,k=220)$

W podejściu bayesowskim twoim przełożeniem jest to, że zamiast i $p=0.5$ $\pi(p=0.5)=0.5$ $\pi(p\neq0.5)=0.5$

Użyjmy jeszcze bardziej sprawiedliwego wcześniej, że i . Zakładamy, że ma rozkład równomierny w każdym przedziale. $\pi(0.49\leq p\leq0.51)=0.9$ $\pi(p<0.49 \cup p>0.51)=0.1$ $p$

Następnie możemy obliczyć tylne . $P(0.49\leq p\leq0.51|k=220)$

Lub bardzo prawdopodobne, że wcześniejszy jest rozkładem normalnym ~ , lub możemy założyć znacznie mniejszą wariancję, taką jak . $p$ $N(\mu=0.5,\sigma^2=0.25)$ $\sigma^2=0.1$

Następnie obliczamy rozkład tylny jako . $p$ $f(p|k=220)$

Moja reputacja nie wystarcza, aby napisać komentarz pod pytaniem. Zamiast tego napiszę tutaj coś na temat You Can't Bias a Coin . @Adrian

Oto co mamy

Wynik eksperymentu $B(n=400,k=220,p=\theta)$
Studium teoretyczne i eksperymentalne Nie można nastawiać monety

Oto nasza hipoteza

$H_0:$ Moneta jest uczciwa lub $\hat\theta=0.5$

$H_1$ : Dane eksperymentu zostały nieprawidłowo zarejestrowane

Oto nasz wynik

Na podstawie artykułu „ Możesz załadować matrycę, ale nie możesz nastawiać monety” , przyjmujemy hipotezę . $H_0$
W oparciu o wynik eksperymentu, że różnica jest dwa razy większa niż odchylenie standardowe, z grubsza mamy 95% poziom ufności, aby zaakceptować hipotezę , że badanie eksperymentu zostało nieprawidłowo zarejestrowane. $H_1$

Ponieważ wartość dla testu hipotezy odrzucenia lub wynosi mniej więcej 5%, musimy je zaakceptować. Lub musimy je odrzucić. $p$ $H_0$ $H_1$

W przeciwnym razie tworzymy tutaj podwójny standard do testowania hipotez. Nie możemy zaakceptować hipotezy, że rzut monetą jest sprawiedliwy, a dane eksperymentu poprawnie zapisane .

Nie ma sensu mówić, że moneta ma prawdopodobieństwo p głów

Mamy wynik eksperymentu na poparcie tej hipotezy.

Jeśli eksperyment powtarza się n razy, to czy możliwe jest, aby przed rzutem monetą uzyskać liczbę jako gdy n jest znacznie duże? $p$ $N(\mu=0.5,\sigma^2)$

Jeśli jest to do przyjęcia, możemy następnie oszacować 95% CI w oparciu o metodę maksymalnego prawdopodobieństwa. $\sigma^s$

— Zhang Tschao
źródło

Dziękuję Zhang. Jedna drobna nitka: jeśli chciałbyś użyć rozkładu normalnego dla swojego przełożonego nad prawdopodobieństwem głów, powinieneś obciąć go, aby p leżało w [0, 1].

— Adrian

Oczywiście istnieje wiele rozsądnych wcześniejszych dystrybucji i odpowiadających im późniejszych. Prawdziwy punkt mojego pytania jest bardziej ogólny: stwierdzenie, że moneta jest niesprawiedliwa, wydaje mi się dziwnym wnioskiem w tym kontekście podrzucania monet. Co o tym sądzisz - i dlaczego?

— Adrian

Wygodnym wcześniejszym rozwiązaniem byłaby dystrybucja Beta, ponieważ jest sprzężona z prawdopodobieństwem dwumianowym. Ale znowu, prawdziwy ciąg mojego pytania jest bardziej ogólny niż konkretny przeor.

— Adrian

Myślę, że powodem jest to, że dajesz zbyt duże prawdopodobieństwo konkretnemu pierwszemu . Myślę, że jeśli zmienisz wcześniejszy, a mianowicie po prostu jednolity rozkład , i skonstruujemy 95% przedział ufności dla , myślę, że okaże się, że wynik jest bardzo przekonujący, przy czym nie leży w 95% CI . I łatwo akceptujemy hipotezę, że moneta jest niesprawiedliwa. Zwłaszcza w tym przypadku nie wydaje się, że uznanie monety za niesprawiedliwe jest dziwnym wnioskiem.

π (p = 0.5)

$\pi(p=0.5)$

p \sim U (0, 1)

$p \sim U(0,1)$

E (p) \sim f (p | k = 220)

$E(p) \sim f(p|k=220)$

p = 0.5

$p=0.5$

E (p)

$E(p)$

— Zhang Tschao

@ user777 Rozkład normalny pojawia się dwukrotnie w odpowiedzi Zhanga, po pierwsze jako przybliżenie dwumianowe (wielkie), a po drugie jako prawdopodobieństwo prawdopodobieństwa głów (gdy mówi „przeor jest rozkładem normalnym p ~ N”). Zhang - twoja edycja o tym, że Null jest „moneta jest uczciwa, a dane zostały poprawnie zarejestrowane” jest interesująca, dziękuję za jej opublikowanie.

— Adrian