Zaprojektowanie testu dla medium, który mówi, że może wpływać na rzuty kostką

Powiedzmy, że mam przyjaciela (nazwijmy go „George”), który mówi, że może kontrolować rzut kostkami za pomocą swojego umysłu (tzn. Zwiększyć prawdopodobieństwo, że kości spadną na określoną liczbę, o której myśli).

Jak zaprojektować rygorystyczny naukowo test, aby ustalić, czy on może to zrobić? (Nie sądzę, żeby mógł, oczywiście, ale chcę, aby przed rozpoczęciem testu zgodził się na szczegóły testu w stylu Amazing Randi.) Chcę zmniejszyć (bardzo prawdopodobne) wymówki po teście że on wymyśli.

Oto co mam do tej pory:

Określ fizyczną technikę rzucania kostką (która kostka, puchar wytrząsacza, powierzchnia do lądowania itp.)
Zdefiniuj „sesję testową”, składającą się z X rzutów kości. To musi być wystarczająco małe, aby zrobić to za jednym razem, ale wystarczająco duże, aby określić (po analizie) w granicach 95% -99% pewności, czy kości wypadły uczciwie, czy faworyzowały jedną stronę
Przeprowadź sesje Y na wybranych kostkach (bez wpływu George'a), jako „kontrolę”, aby upewnić się, że kości same pokażą „uczciwe” wyniki
Przeprowadzaj sesje Z z George'em. Przed każdym rzuć oddzielną kością, aby określić, na jakiej liczbie George „skoncentruje się” podczas całej sesji.
Kompiluj i analizuj wyniki.
George wymyśla kilka wymówek dla swojego ponurego występu.

Więc moje pytania do ciebie:

Jakieś wady lub problemy z moją ogólną metodologią? Czy George mógłby coś sprzeciwić?
Czy powinienem używać D6? A może D20? Czy to ma znaczenie? Czy kość z większą liczbą twarzy wymagałaby więcej rzutów, aby uzyskać podobnie pewne wyniki? Czy wręcz przeciwnie? Wolę mniej rolek niż więcej, ze względów praktycznych :)
Jakie są rozsądne wartości dla X , Y i Z ? Nie są całkowicie niezwiązani; jeśli moja wybrana wartość X pozwala tylko na 95% pewności dla jednej sesji, wówczas 1 na 20 sesji może „zawieść”, nawet bez wpływu George'a
Jak zdefiniować „sukces” lub „porażkę” dla pojedynczej sesji? (Znalazłem to pytanie, które dotyczy szczegółów testu chi-kwadrat, więc myślę, że to moja metodologia oceny, ale jakie są rozsądne progi ufności?)
Jak zdefiniować „sukces” lub „porażkę” dla testu ogólnego? George może „wygrać” pojedynczą sesję przypadkiem, ale ile sesji Z musiałby przejść, aby przejść cały test?

Prawdopodobnie będę analizował te wyniki w arkuszu kalkulacyjnym MS Excel, jeśli to coś zmieni.

probability experiment-design dice

— BradC
źródło

Jeśli manipuluje kostkami tylko umysłem, ktoś powinien je rzucić. Myślę, że takie rzeczy jak D6 lub D20 należy pozostawić George'owi. Jakiego rodzaju manipulacje według George'a mógł zrobić? Czy powiedział, że może podać konkretną liczbę, o której marzyłby? Jeśli tak, sukcesy byłyby przypadkami tej liczby, a niepowodzenia byłyby czymkolwiek innym.

— Jan

@John - Twierdził tylko, że może sprawić, że ten numer będzie pojawiał się częściej niż w innym przypadku, nie że zawsze będzie on wynosił tę liczbę.

— BradC

(Oryginalnie zadano wersję tego pytania na stronie math.stackexchange.com/q/57624/14626 )

— BradC

twoje odpowiedzi matematyczne Michaela Hardy'ego i TonyK są całkiem dobre.

— Jan

Nie byłbym zadowolony z poziomu ufności tak niskiego jak 95%, a nawet 99%; roszczenia nadzwyczajne zwykle wymagają nadzwyczajnych dowodów. Albo mówiąc bardziej kontekst Bayesa, moje wcześniejsze przekonanie, że ma taką zdolność, jest tak niskie, że potrzebowałbym absurdalnej ilości dowodów, aby znacząco zmienić moje późniejsze przekonanie.

— Michael McGowan

Odpowiedzi:

Poleciłbym przeanalizować to w następujący sposób:

Policz każdą rolę, w której George z powodzeniem przewiduje wynik jako sukces, a każdą inną jako porażkę. Następnie łatwo obliczyć prawdopodobieństwo sukcesu George'a i przedział ufności 95% lub 99%. Czy twierdzi, że potrafi przewidzieć wynik „dwa razy lepiej” niż losowe rzucanie kostką? Następnie:

H0: p> = 1/3

H1: p <1/3

(zakładając, że kostka 6-stronna).

Odtąd test hipotezy jest dość prosty. Ponadto można dość łatwo obliczyć moc a priori (nawet w czymś takim jak Excel). Wybierz liczbę rzutów (np. 10), a następnie stwórz tabelę z możliwymi sukcesami jako rzędy (0-10). Następnie, dla każdego sukcesu, oblicz prawdopodobieństwo, że odniesie on tyle sukcesów (gdyby tylko zgadywał, co zakładamy, że robi). Ponadto dla każdej wartości określ, czy doprowadziłoby to do odrzucenia lub przyjęcia wartości zerowej. Następnie, aby znaleźć moc, możesz po prostu zsumować wszystkie prawdopodobieństwa odrzucenia wartości null.

— random_forest_fanatic
źródło

D20 będzie wymagało więcej rzutów dla tego samego poziomu istotności dla George'a, który z pewnością odniesie sukces, jeśli trzeba przeprowadzić test chi-kwadrat. Nie sądzę jednak, żebyś musiał przeprowadzić pełny test chis-kwadrat. Musisz tylko sprawdzić, czy kostka rzuci „wybraną” liczbą częściej niż przypadek. Po prostu użyłbym cdf dwumianu, aby obliczyć wartość p walcowania wybranej liczby częściej niż przypadek z jako parametr dwumianowy dla D6. Myślę, że łatwo jest ustalić liczbę podstawie wartości p potrzebnej do sukcesu George'a. Nie jestem nawet pewien, czy potrzebujesz sesji Z. Może po prostu uruchom jedną sesję dla każdej strony kości. Czy randomizacja wybranej strony ma znaczenie nawet dla hipotez, którymi jesteś zainteresowany? $\theta=\frac{1}{6}$ $X$

— wysoka przepustowość
źródło

Losowanie wybranej strony prawdopodobnie nie ma znaczenia, po prostu martwiłem się o A) Uwzględnienie ewentualnych prawdziwych stronniczości w kościach i B) Upewnienie się, że każda pojedyncza anomalna sesja (ta 1 na 20 z powodu prawdziwej przypadkowości, o której mówiłem) nie jest jest traktowane jako potwierdzenie jego zdolności parapsychicznych. Prawdopodobnie wystarczy 6 sesji, po jednej na każdą liczbę, o ile mój X (i poziom ufności) jest wystarczająco wysoki.

— BradC