Argument statystyczny uzasadniający, dlaczego 10 000 głów z 20 000 rzutów sugeruje nieprawidłowe dane

11

Powiedzmy, że wielokrotnie rzucamy uczciwą monetą i wiemy, że liczba głów i ogonów powinna być w przybliżeniu równa. Kiedy widzimy wynik 10 głów i 10 ogonów w sumie 20 rzutów, wierzymy w wyniki i jesteśmy skłonni wierzyć, że moneta jest uczciwa.

Cóż, gdy zobaczysz wynik taki jak 10000 głów i 10000 ogonów w sumie 20000 rzutów, faktycznie kwestionowałbym ważność wyniku (czy eksperymentator sfałszował dane), ponieważ wiem, że jest to bardziej prawdopodobne niż, powiedzmy, wynik 10093 głów i 9907 ogonów.

Jaki jest statystyczny argument mojej intuicji?

confidence-interval binomial

— Haibao Tang
źródło

21

Zakładając, że uczciwa moneta, wynik 10000 głów i 10000 ogonów jest w rzeczywistości bardziej prawdopodobny niż wynik 10093 głów i 9907 ogonów.

Jednakże, gdy mówisz, że prawdziwy eksperymentator raczej nie uzyska takiej samej liczby głów i ogonów, domyślnie powołuje się na twierdzenie Bayesa. Twoje wcześniejsze przekonanie na temat prawdziwego eksperymentu jest takie, że Prob (liczba głów = 10000 na 20000 rzutów | Biorąc pod uwagę, że eksperymentator nie udaje) jest bliski 0. Tak więc, gdy zobaczysz rzeczywisty wynik, że „Liczba głów = 10000” twoje a posterior o Prob (Experimenter nie udaje | zaobserwował wynik 10000 głów) jest również bliski 0. W związku z tym wnioskujesz, że eksperymentator sfałszował dane.

Bardzo dobrze wyjaśnione! Cóż za wspaniały przykład do twierdzenia Bayesa.

— Tal Galili,

1

@Sikikant: tego przeora nie można formalnie zdefiniować. W każdym razie Prob (liczba głów = eksperymentator X | nie udaje) wynosi zawsze około zera, gdy N = 20000, bez względu na wartość X i bez względu na twój poprzedni. Więc twój tylny dla dowolnej liczby jest zawsze bliski 0. Nie rozumiem, co to ma wspólnego z twierdzeniem Bayesa.

— Joris Meys,

Wszystko to od faceta, który był zaszyty, próbując udowodnić, że Bóg istnieje. Naprawdę elegancki.

— Brandon Bertelsen

1

Ujmując to w bardziej ogólnej perspektywie, zgadzam się z tym, że działa tutaj twierdzenie Bayesa. W szczególności istnieją alternatywne prawdopodobieństwa (odpowiadające różnym procesom generatywnym) oszustwa i uczciwych eksperymentatorów. Ustalenie oszustwa jest późniejszym wnioskiem w odniesieniu do intuicyjnego, a zatem żałośnie nieokreślonego procesu oszustwa.

— conjugateprior

1

@Srikant @whuber: kombinatoryczne ... masz rację. Zacząłem od jednolitego prawdopodobieństwa, co w tym przypadku jest oczywiście nonsensowne. Mój zły

— Joris Meys,

12

Lubię wyjaśnienia Srikanta i myślę, że idea bayesowska jest prawdopodobnie najlepszym sposobem na rozwiązanie takiego problemu. Ale jest inny sposób, aby zobaczyć to bez Bayesa: (w R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

czyli około 31,2 w moim systemie. Innymi słowy, jest ponad 30 razy bardziej prawdopodobne, że zobaczy 10 na 20 niż 10 000 na 20 000, nawet w obu przypadkach z uczciwą monetą. Ten stosunek zwiększa się bez ograniczeń wraz ze wzrostem wielkości próbki.

Jest to rodzaj podejścia opartego na ilorazie prawdopodobieństwa, ale znowu, wydaje mi się, że brzmi to jak wyrok Bayesa bardziej niż cokolwiek innego.

Dlaczego stosunek? Dlaczego nie tylko stwierdzić, że prawdopodobieństwo tego dokładnego losowania jest wyjątkowo niskie?

— Andy W

5

Twierdzenie, że określone prawdopodobieństwo jest niskie poza kontekstem, nie jest przekonujące. Prawdopodobieństwo, że jestem dokładnie tak wysoki jak mój wzrost (cokolwiek to może być), wynosi zero. I tak, problematyczne jest nawet określenie wysokości z nieskończoną precyzją, yada, yada, yada ... Chodzi mi o to, że wir egzystencji burzy się z wydarzeniami o nieskończenie małym prawdopodobieństwie, które zdarzają się cały czas! 10 000 na 20 000 - poza kontekstem - wcale mnie nie zaskakuje. Niezależnie od tego, jakie może być jego prawdopodobieństwo numeryczne.

9

Subiektywistyczna Bayesa argument jest praktycznie jedynym sposobem (z punktu widzenia statystycznego) można przejść o zrozumienie swoją intuicję , która jest - właściwie mówiąc - przedmiot z psychologicznego dochodzenia, a nie jednego statystycznego. Jednak stosowanie zasady bayesowskiej w celu argumentowania, że śledczy sfałszował dane, jest oczywiście niesprawiedliwe - a zatem nieważne - Logika ta jest idealnie okrągły: sprowadza się do stwierdzenia „na podstawie moich wcześniejszych przekonań o wynikach, znajdę swoją wynik niewiarygodny, i dlatego musi być oszukany.” Taki nielogiczny samolubny argument oczywiście nie stanąłby w sądzie lub w procesie wzajemnej oceny.

Zamiast tego możemy wyciągnąć wskazówkę z krytyki eksperymentów Mendla przez Ronalda Fishera i przeprowadzić formalny test hipotezy. Oczywiście nie można testować hipotezy post hoc na podstawie wyniku. Ale należy uwierzyć, że eksperymenty należy powtórzyć: to zasada naukowej metody. Widząc jeden wynik, który naszym zdaniem mógł zostać sfałszowany, możemy sformułować odpowiednią hipotezę, aby przetestować przyszłe (lub dodatkowe) wyniki. W tym przypadku region krytyczny obejmowałby zestaw wyników bardzo zbliżonych do oczekiwań. Na przykład test na $\alpha$ = Poziom 5% uznałby każdy wynik między 9996 a 10,004 za podejrzany, ponieważ (a) ta kolekcja jest zbliżona do naszych hipotetycznych wyników „sfałszowanych” i (b) pod zerową hipotezą braku udawania (niewinny, dopóki nie zostanie udowodniony winny w sądzie!) , wynik w tym zakresie ma tylko 5% (właściwie 5,07426%) szansy wystąpienia. Co więcej, możemy z pozoru podejść ad hoc w kontekście chi-kwadrat (a la Fisher), po prostu wyrównywanie odchylenia między obserwowaną proporcją a oczekiwaną proporcją, a następnie przywołanie lematu Neymana-Pearsona w jednostronnym teście na niski ogon i zastosowanie normalnego przybliżenia do rozkładu dwumianowego .

Chociaż taki test nie może udowodnić fałszywości, można go zastosować do przyszłych raportów tego eksperymentatora, aby ocenić wiarygodność ich twierdzeń, bez dokonywania nieprzewidzianych i niemożliwych do przyjęcia założeń na podstawie samej intuicji. Jest to o wiele bardziej sprawiedliwe i rygorystyczne niż powoływanie się na argument Bayesa, aby sugerować kogoś, kto może być całkowicie niewinny i po prostu okazał się tak nieszczęśliwy, że uzyskał piękny wynik eksperymentalny!

— Whuber
źródło

5

Myślę, że twoja intuicja jest wadliwa. Wygląda na to, że domyślnie porównujesz pojedynczy „bardzo specjalny” wynik (dokładnie 10000 głów) z zestawem wielu wyników (wszystkie „niespecjalne” liczby głów zbliżone do 10000). Jednak definicja „specjalnego” jest arbitralnym wyborem opartym na naszej psychologii. A może binarny 10000000000000 (dziesiętny 8192) lub Hex ABC (dziesiętny 2748) - czy byłoby to również podejrzanie wyjątkowe? Jak zauważył Joris Meys, argument Bayesa byłby zasadniczo taki sam dla każdej pojedynczej liczby głów, co oznaczałoby, że każdy wynik byłby podejrzany.

Aby nieco rozszerzyć argument: chcesz przetestować hipotezę („eksperymentator jest fałszywy”), a następnie wybrać statystyki testowe (liczba głów). Czy ta statystyka testowa nadaje się do powiedzenia ci czegoś o twojej hipotezie? Wydaje mi się, że wybrana statystyka testowa nie ma charakteru informacyjnego (nie jest funkcją parametru określonego jako stała wartość w hipotezie). To wraca do pytania, co rozumiesz przez „oszukiwanie”. Jeśli to oznacza, że eksperymentator kontroluje monetę do woli, nie znajduje to odzwierciedlenia w statystykach testu. Myślę, że musisz być bardziej precyzyjny, aby znaleźć kwantyfikowalny wskaźnik, a tym samym sprawić, by pytanie podlegało testowi statystycznemu.

— karakal
źródło

+1, ale nie jestem przekonany. Cechą szczególną 10 000 jest to, że dokładnie równa się oczekiwanej liczbie głów pod hipotezą, że moneta jest uczciwa. Ten fakt jest niezależny od jakiejkolwiek psychologii lub systemu reprezentacji liczb. Analiza zawarta w tej odpowiedzi może dać pewien wgląd w sytuację, w której powiedzmy, że powiedziano 20 005 monet, odnotowano 10 000 głów (a zatem 10 005 ogonów) i czyjaś „intuicja” sugerowała fałszerstwo.

— whuber

W pełni zgadzam się, że - jak wskazano w odpowiedzi - wszystko zależy od definicji hipotezy a priori: jeśli z góry określisz, że „udając eksperyment” masz na myśli osiągnięcie wyniku dla liczby głów, która jest zbliżona do wartości oczekiwanej ”, to podstawa testu statystycznego z„ liczbą głów ”jako statystyką testową. Jednak bez takiego wyjaśnienia z góry znaczenie „fałszowanie” i „specjalna wartość dla liczby głów” pozostaje mętne i nie jest jasne, co mają ze sobą wspólnego.

— karakal

4

Wyciągnięty wniosek będzie BARDZO zależny od wcześniejszego wyboru prawdopodobieństwa oszustwa i wcześniejszego prawdopodobieństwa, że biorąc pod uwagę płetwę, x głowy są zgłaszane.

Nałożenie największej masy na P (10000 głów zgłoszonych | leżących) jest moim zdaniem nieco sprzeczne z intuicją. O ile reporter nie jest naiwny, nie wyobrażam sobie, aby ktokolwiek zgłaszał takie sfałszowane dane (głównie z powodów, o których wspomniałeś w oryginalnym poście; jest to zbyt podejrzane dla większości osób). Jeśli moneta naprawdę jest niesprawiedliwa, a płetwa ma się zgłosić sfałszowane dane, więc myślę, że bardziej rozsądnym (i bardzo przybliżonym) wyprzedzeniem podanych wyników może być dyskretny jednolity przed P (X głów zgłoszonych | leżących) = 1/201 dla liczb całkowitych {9900, ..., 10100} i P (x zgłoszonych głów | leżących) = 0 dla wszystkich pozostałych x. Załóżmy, że uważasz, że wcześniejsze prawdopodobieństwo kłamstwa wynosi 0,5. Zatem niektóre późniejsze prawdopodobieństwa to:

P (leżące | 9900 głów zgłoszonych) = P (leżące | 10100 głów zgłoszonych) = 0,70;

P (leżące | 9950 głów zgłoszonych) = P (leżące | 10050 głów zgłoszonych) = 0,54;

P (leżące | 10000 zgłoszonych głów) = 0,47.

Najbardziej rozsądna liczba zgłoszonych głów z uczciwej monety spowoduje podejrzenie. Aby pokazać, jak wrażliwe są prawdopodobieństwa a posteriori na twoje priorytety, jeśli wcześniejsze prawdopodobieństwo oszustwa zostanie obniżone do 0,10, to prawdopodobieństwa a posteriori stają się:

P (leżące | 9900 głów zgłoszonych) = P (leżące | 10100 głów zgłoszonych) = 0,21;

P (leżące | 9950 głów zgłoszonych) = P (leżące | 10050 głów zgłoszonych) = 0,11;

P (leżące | 10000 zgłoszonych głów) = 0,09.

Myślę więc, że oryginalną (i wysoko ocenianą odpowiedź) można nieco rozszerzyć; w żaden sposób nie należy uznawać, że dane są sfałszowane bez dokładnego rozważenia wcześniejszych informacji. Poza tym, myśląc o tym intuicyjnie, wydaje się, że na późniejsze prawdopodobieństwo leżenia bardziej wpłynie raczej wcześniejsze prawdopodobieństwo leżenia niż wcześniejszy rozkład głów, biorąc pod uwagę, że płetwa kłamie (z wyjątkiem przełożonych, którzy kładą wszystko ich masa na małej liczbie głów zgłoszona, biorąc pod uwagę, że płetwa leży, tak jak w moim przykładzie).

— HairyBeast
źródło

Myślę, że to bardzo dobra odpowiedź, ale nie zgadzam się z twoim drugim akapitem. Nie sądzę, by pierwotne prawdopodobieństwo warunkowe Srikanta było sprzeczne z intuicją, a po prostu dlatego, że trudno jest odpowiedzieć na to pytanie, nie jest argumentem przeciwko niemu. Nie sądzę też, aby twoje jednolite prawdopodobieństwo leżenia w przedziale od 9900 do 10100 miało jakikolwiek sens, chociaż jest przydatne do celów demonstracyjnych.

— Andy W

2

Dla wyjaśnienia bayesowskiego potrzebujesz wcześniejszego rozkładu prawdopodobieństwa na zgłoszonych wynikach przez leżącą monetę, a także wcześniejszego prawdopodobieństwa kłamstwa. Kiedy zobaczysz wartość, która jest znacznie bardziej prawdopodobna pod rozkładem leżenia niż przypadkowa, odwraca, to zwiększa twoje prawdopodobieństwo leżenia z tyłu.

— Internet
źródło