Tło i terminologia
Aby wyjaśnić, o czym dyskutujemy, ustalmy kilka pojęć i terminologię. Dobrym modelem proporcji jest urna binarna: zawiera kulki w kolorze srebrnym („sukces”) lub fuksja („porażka”). Proporcja srebrnych kulek w urnie wynosi (ale nie o tej proporcji będziemy mówić). p
Ta urna zapewnia sposób na modelowanie próby Bernoulli . Aby uzyskać jedną realizację, dokładnie wymieszaj kulki i ślepo wyciągnij jedną, obserwując jej kolor. Aby uzyskać dodatkowe realizacje, należy najpierw odtworzyć pudełko, zwracając narysowaną piłkę, a następnie powtórzyć procedurę określoną liczbę razy. Sekwencja realizacje mogą być przedstawione przez zliczania sukcesów, . Jest to zmienna losowa, której właściwości są całkowicie określone przez i . Rozkład nazywa się rozkładem dwumianowym . Proporcja (eksperymentalna lub „próbka”) to stosuneknXnpX( n , p )X/ n.
Liczby te są wykresami słupkowymi rozkładów prawdopodobieństwa dla różnych proporcji dwumianowych . Na uwagę zasługuje spójny wzór, niezależnie od , w którym rozkłady stają się węższe (a słupki odpowiednio wyższe), gdy przesuwa się z w dół.X/ nnp1 / 2
Odchylenie standardowe jest standardowym błędem proporcji wspomnianym w pytaniu. Dla dowolnego liczba ta może zależeć tylko od . Nazwijmy to . Zmieniając role piłek - nazywając te srebrne „awariami”, a fuksja „sukcesami”, łatwo zauważyć, że . Zatem sytuacja, w której - czyli musi być wyjątkowa. Pytanie dotyczy tego, jak zmienia się gdy przesuwa się z do bardziej ekstremalnej wartości, takiej jakX/ nnpse( p )se( p ) = se( 1 - p )p = 1 - pp = 1 / 2se( p )p1 / 20.
Wiedza a zrozumienie
Ponieważ wszystkim pokazano takie liczby na wczesnym etapie edukacji, wszyscy „znają” szerokości wykresów - mierzone za pomocą muszą się zmniejszać, gdy odsuwa się od . Ale ta wiedza to tak naprawdę tylko doświadczenie, podczas gdy pytanie dąży do głębszego zrozumienia. Takie zrozumienie jest dostępne dzięki dokładnej analizie rozkładów dwumianowych, takich jak Abraham de Moivre przeprowadzony około 300 lat temu. (Były one w duchu podobne do tych, które przedstawiłem w dyskusji na temat twierdzenia o granicy centralnej .) Myślę jednak, że niektóre względnie proste rozważania mogą wystarczyć, aby stwierdzić, że szerokości muszą być najszersze w pobliżu .se( p )p1 / 2p = 1 / 2
Prosta intuicyjna analiza
Oczywiste jest, że należy oczekiwać, że odsetek sukcesów w eksperymencie będzie zbliżony do . Standardowy błąd dotyczy tego, jak daleko od tego oczekiwania można zasadnie przypuszczać, że rzeczywisty wynik będzie leżał. Przypuśćmy, że bez utraty ogólności, że wynosi od do , co trzeba zrobić, aby zwiększyć od ? Zazwyczaj około kul narysowanych w eksperymencie było srebrnych i (dlatego) około było fuksją. Aby uzyskać więcej srebrnych kulek, niektóre z tychpX/ np01 / 2X/ npp n( 1 - p ) np nwyniki fuksji musiały się różnić. Jak prawdopodobne jest, że ta szansa może działać w ten sposób? Oczywistą odpowiedzią jest to, że gdy jest małe, nigdy nie jest bardzo prawdopodobne, że narysujemy srebrną piłkę. Dlatego nasze szanse na wyciągnięcie srebrnych kulek zamiast fuksyjnych są zawsze niskie. Możemy mieć uzasadnioną nadzieję, że przy odrobinie szczęścia część wyników fuksji mogłaby się różnić, ale wydaje się mało prawdopodobne, aby zmieniło się o wiele więcej. Jest zatem prawdopodobne, że nie zmienia się o wiele więcej niż . Równolegle nie zmienia się o wiele więcej niż .ppXp×(1−p)nX/np(1−p)n/n=p(1−p)
finał
Tak więc pojawia się magiczna kombinacja . p(1−p) To właściwie rozwiązuje pytanie: oczywiście ta ilość osiąga wartość szczytową przy i spada do zera przy lub . Zapewnia intuicyjne, ale ilościowe uzasadnienie dla twierdzeń, że „jedna skrajność jest bardziej ograniczająca niż druga” lub innych takich prób opisania tego, co wiemy.p=1/2p=0p=1
Jednak nie jest całkiem poprawna wartość: to tylko wskazuje drogę, mówiąc nam, co ilość powinna znaczenia dla oceny rozprzestrzeniania . Zignorowaliśmy fakt, że szczęście również działa przeciwko nam: tak jak niektóre kulki w kolorze fuksji mogły być srebrne, niektóre srebrne kule mogły być w kolorze fuksji. Rachunkowość dla wszystkich możliwości rygorystycznie może się komplikują, ale rezultat jest taki, że zamiast używać w rozsądnych granicach, ile mógłby odstąpić od jej oczekiwań , w celu uwzględnienia wszystkich możliwych wyników właściwie mamy wziąć pierwiastek kwadratowyp(1−p)Xp(1−p)nXpn p(1−p)n−−−−−−−−√. (W celu dokładniejszego wyjaśnienia dlaczego, odwiedź stronę ( https://stats.stackexchange.com/a/3904 .) Dzieląc przez , dowiadujemy się, że losowe zmiany proporcji powinny być rzędu który jest standardowym błędem .nX/np(1−p)n−−−−−−−−√/n=p(1−p)n−−−−−√,X/n