Interpretuję pytanie w ten sposób: załóżmy, że próbkowanie zostało rzekomo przeprowadzone tak, jakby bilety z białego papieru zostały umieszczone w słoiku, każdy oznaczony imieniem jednej osoby, a 232 zostały wyjęte losowo po dokładnym wymieszaniu zawartości słoika. Wcześniej 12 biletów miało kolor czerwony. Jaka jest szansa, że dokładnie dwa wybrane bilety są czerwone? Jaka jest szansa, że maksymalnie dwa bilety są czerwone?36323212
Dokładną formułę można uzyskać, ale nie musimy wykonywać tyle pracy teoretycznej. Zamiast tego śledzimy szanse, kiedy bilety są wyciągane ze słoika. W momencie wycofania z nich, niech szansa, że zobaczyłem dokładnie i czerwone bilety, zostanie zapisana p ( i , m ) . Aby rozpocząć, zwróć uwagę, że p ( i , 0 ) = 0, jeśli i > 0 (nie możesz mieć żadnych czerwonych biletów, zanim zaczniesz) ip ( 0 , 0 ) = 1mjap ( i , m )p ( i , 0 ) = 0i > 0p ( 0 , 0 ) = 1(jest pewne, że na początku nie masz czerwonych biletów). Teraz, podczas ostatniego losowania, albo bilet był czerwony, albo nie był. W pierwszym przypadku wcześniej mieliśmy szansę na zobaczenie dokładnie i - 1 czerwonych biletów. Wtedy stało się potem wyciągnąć czerwoną jednego z pozostałych 363 - m + 1 biletów, co dokładnie i czerwony bilety do tej pory. Ponieważ zakładamy, że wszystkie bilety mają równe szanse na każdym etapie, dlatego nasza szansa na narysowanie czerwonego w ten sposób wyniosła ( 12 - i + 1p ( i - 1 , m - 1 )i - 1363 - m + 1ja . W drugim przypadku mieliśmy szansę p ( i , m - 1 ) na uzyskanie dokładnie i czerwonych biletów w poprzednichlosowaniach m - 1 , a szansa, żeniedodamy kolejnego czerwonego biletu do próbki na następnym losowaniu wynosiła ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 )( 12 - i + 1 ) / ( 363 - m + 1 )p ( i , m - 1 )jam - 1( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ). Skąd, stosując podstawowe aksjomaty prawdopodobieństwa (tj. Szanse dwóch wzajemnie wykluczających się przypadków dodają i szanse warunkowe mnożą się),
p ( i , m ) = p ( i - 1 , m - 1 ) ( 12 - i + 1 ) + p ( i , m - 1 ) ( 363 - m + 1 - 12 + i )363 - m + 1.
Powtarzamy to obliczenie rekurencyjnie, układając trójkątny układ wartości dla 0 ≤ i ≤ 12 i 0 ≤ m ≤ 232 . Po krótkim obliczeniach uzyskać p ( 2 , 232 ) ≈ 0,000849884 i P ( 0 , 232 ) + P ( 1 , 232 ) + P ( 2 , 232 ) ≈p ( i , m )0 ≤ i ≤ 120 ≤ m ≤ 232s ( 2 , 232 ) ≈ 0,000849884 , odpowiadając na obie wersje pytania. Są to małe liczby: bez względu na to, jak na to spojrzysz, są to dość rzadkie zdarzenia (rzadziej niż jeden na tysiąc).p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314
W ramach podwójnej kontroli wykonałem to ćwiczenie z komputerem 1 000 000 razy. W 932 = 0,000932 tych eksperymentów zaobserwowano 2 lub mniej czerwonych biletów. Jest to bardzo bliskie obliczonemu wynikowi, ponieważ fluktuacja próbkowania w oczekiwanej wartości 934,3 wynosi około 30 (w górę lub w dół). Oto jak przeprowadzana jest symulacja w języku R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
Tym razem, ponieważ eksperymenty są losowe, wyniki nieco się zmieniły: w 948 milionach prób zaobserwowano dwa lub mniej czerwonych biletów. Jest to nadal zgodne z wynikiem teoretycznym).
Wniosek jest taki, że jest bardzo mało prawdopodobne, aby dwa lub mniej z 232 biletów były czerwone. Jeśli rzeczywiście masz próbkę 232 z 363 osób, wynik ten jest silnym dowodem, że model biletów w słoiku nie jest poprawnym opisem sposobu uzyskania próbki. Alternatywne wyjaśnienia obejmują (a) czerwone bilety były trudniejsze do pobrania ze słoika („uprzedzenie” względem nich), a także (b) bilety były zabarwione po zaobserwowaniu próbki ( szpiegowanie danych post-hoc , co powoduje nie wskazuj żadnych stronniczości).
Przykładem wyjaśnienia (b) w działaniu może być skład ław przysięgłych dla notorycznego procesu morderstwa. Załóżmy, że obejmowało 363 osoby. Z tej puli sąd przesłuchał 232 z nich. Ambitny reporter gazety skrupulatnie dokonuje przeglądu życia wszystkich w basenie i zauważa, że 12 z 363 hodowców złotych rybek, ale tylko dwóch z nich udzieliło wywiadu. Czy sąd jest stronniczy w stosunku do hodowców złotych rybek? Prawdopodobnie nie.