Krótka odpowiedź:
Zasadniczo bardziej przekonujące jest posiadanie 600 na 1000 niż sześć na 10, ponieważ przy równych preferencjach jest znacznie bardziej prawdopodobne, że 6 na 10 wystąpi przypadkowo.
Załóżmy, że odsetek, który preferował pomarańcze i jabłka, jest w rzeczywistości równy (czyli 50% każdy). Nazwij to hipotezą zerową. Biorąc pod uwagę te równe prawdopodobieństwa, prawdopodobieństwo tych dwóch wyników jest następujące:
- Biorąc pod uwagę próbę 10 osób, istnieje 38% szansa na losowe pobranie próbki 6 lub więcej osób, które wolą pomarańcze (co nie jest wcale takie mało prawdopodobne).
- Przy próbie 1000 osób istnieje mniej niż 1 na miliard szans, że 600 lub więcej z 1000 osób woli pomarańcze.
(Dla uproszczenia zakładam nieskończoną populację, z której można pobrać nieograniczoną liczbę próbek).
Prosta pochodna
Jednym ze sposobów uzyskania tego wyniku jest po prostu wymienienie potencjalnych sposobów łączenia ludzi w naszych próbkach:
Dla dziesięciu osób jest to łatwe:
Rozważ losowe pobranie próbek 10 osób z nieskończonej populacji osób o równych preferencjach dotyczących jabłek lub pomarańczy. Przy równych preferencjach łatwo jest po prostu wymienić wszystkie potencjalne kombinacje 10 osób:
Oto pełna lista.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r jest liczbą wyników (osoby, które wolą pomarańcze), C jest liczbą możliwych sposobów, że wiele osób woli pomarańcze, a p jest wynikowym dyskretnym prawdopodobieństwem, że wiele osób woli pomarańcze w naszej próbie.
(p to tylko C podzielone przez całkowitą liczbę kombinacji. Zauważ, że istnieje 1024 sposobów na uporządkowanie tych dwóch preferencji łącznie (tj. 2 do potęgi 10).
- Na przykład istnieje tylko jeden sposób (jedna próbka) na 10 osób (r = 10), aby wszyscy preferowali pomarańcze. To samo dotyczy wszystkich osób preferujących jabłka (r = 0).
- Istnieje 10 różnych kombinacji, z czego dziewięć preferuje pomarańcze. (Jedna inna osoba woli jabłka w każdej próbce).
- Istnieje 45 próbek (kombinacji), w których 2 osoby wolą jabłka itp.
(Ogólnie rzecz biorąc mówimy o n C r kombinacjach wyników r z próbki n osób. Istnieją kalkulatory online, których można użyć do weryfikacji tych liczb.)
Ta lista pozwala nam podać powyższe prawdopodobieństwa za pomocą tylko podziału. Istnieje 21% szansy na uzyskanie 6 osób w próbie, które wolą pomarańcze (210 z 1024 kombinacji). Szansa na uzyskanie sześciu lub więcej osób w naszej próbie wynosi 38% (suma wszystkich próbek z sześcioma lub więcej osobami lub 386 z 1024 kombinacji).
Graficznie prawdopodobieństwa wyglądają tak:
Przy większych liczbach liczba potencjalnych kombinacji szybko rośnie.
Dla próbek liczących zaledwie 20 osób istnieje 1 048 576 możliwych próbek, wszystkie z jednakowym prawdopodobieństwem. (Uwaga: Pokazałem tylko co drugą kombinację poniżej).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Jest tylko jedna próbka, w której wszystkie 20 osób woli pomarańcze. Kombinacje zawierające mieszane wyniki są znacznie bardziej prawdopodobne, po prostu dlatego, że istnieje wiele innych sposobów łączenia osób w próbkach.
Próbki, które są stronnicze, są znacznie bardziej mało prawdopodobne, tylko dlatego, że istnieje mniej kombinacji osób, które mogą powodować takie próbki:
Przy zaledwie 20 osobach w każdej próbie skumulowane prawdopodobieństwo posiadania 60% lub więcej (12 lub więcej) osób w naszej próbie preferujących pomarańcze spada do zaledwie 25%.
Widać, że rozkład prawdopodobieństwa staje się cieńszy i wyższy:
Przy 1000 osób liczby są ogromne
Możemy rozszerzyć powyższe przykłady na większe próbki (ale liczby rosną zbyt szybko, aby można było wymienić wszystkie kombinacje), zamiast tego obliczyłem prawdopodobieństwa w R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
Skumulowane prawdopodobieństwo posiadania 600 lub więcej spośród 1000 osób woli pomarańcze to tylko 1,364232e-10.
Rozkład prawdopodobieństwa jest teraz znacznie bardziej skoncentrowany wokół centrum:
[
(Na przykład, aby obliczyć prawdopodobieństwo dokładnie 600 z 1000 osób preferujących pomarańcze w użyciu R, dbinom(600, 1000, prob=0.5)
co wynosi 4,633908e-11, a prawdopodobieństwo 600 lub więcej osób wynosi 1-pbinom(599, 1000, prob=0.5)
, co równa się 1,364232e-10 (mniej niż 1 na miliard).