Istnieje twierdzenie matematyczne zwane „prawem dużych liczb”. Wyobraź sobie, że chcesz ustalić prawdopodobieństwo pojawienia się monety. „Populacja” rzutów monetą to nieskończoność - znacznie większa niż ponad 300 000 000 osób w Stanach Zjednoczonych. Ale zgodnie z Prawem Dużych Liczb, im więcej monet wykonasz, tym dokładniejsze będzie twoje oszacowanie.
Idealna ankieta: w idealnej ankiecie ankieterzy losowo wybierają nazwiska z amerykańskiego spisu powszechnego, dowiadują się, gdzie mieszkają ci ludzie, a potem idą i pukają do drzwi. Jeśli dana osoba twierdzi, że planuje głosować, ankieter pyta, na kogo głosuje, i zapisuje swoją odpowiedź. Matematycznie zagwarantowane działanie odpytywania działa poprawnie, a wielkość błędu w pomiarze dla dowolnego poziomu ufności można łatwo obliczyć .
Oto, co oznacza błąd: Załóżmy, że w oparciu o ankietę masz 52% szans, że wygra Candidate Awesome McPerfect, z 3% błędem i 98% pewnością. Oznacza to, że możesz mieć 98% pewności, że prawdziwa część wyborców, którzy faworyzują kandydata Awesome McPerfect, wynosi od 49% do 55%.
Uwaga na temat błędu i pewności Dla danej wielkości próbki, im większa pewność siebie, tym większy będzie twój błąd. Pomyśl o tym - masz 100% pewności, że prawdziwa proporcja, która obsługuje Canditate Awesome, wynosi od 0% do 100% (możliwy największy błąd), i masz 0% pewności, że prawdziwa proporcja, która obsługuje Canditate Awesome, wynosi dokładnie 52.0932840985028390984308% (błąd zerowy). Większa pewność oznacza więcej błędów, mniejsza pewność oznacza mniej błędów. Jednak związek między pewnością a błędem NIE jest liniowy! (Zobacz: https://en.wikipedia.org/wiki/Confidence_interval )
Ankiety w prawdziwym świecie: Ponieważ drogie jest wysyłanie ankieterów helikopterem do wszystkich części kraju, aby zapukać do drzwi przypadkowych osób (chociaż chciałbym, aby tak się stało; jeśli jesteś miliarderem i widzisz to, proszę rozważ finansowanie), ankiety w prawdziwym świecie są bardziej złożone. Przyjrzyjmy się jednej z bardziej popularnych strategii - wzywaniu losowych wyborców i pytaniu ich, na kogo głosowaliby. To dobra strategia, ale ma kilka dobrze uznanych błędów:
- Ludzie często nie odbierają telefonu i odpowiadają ankieterom (np. Mnie)
- Niektóre dane demograficzne częściej mają telefon stacjonarny (np. Starsi wyborcy)
- Niektóre dane demograficzne częściej reagują na ankieterów (np. Starszych wyborców)
Ponieważ różne grupy demograficzne głosują na różne sposoby, ankieterzy muszą dołożyć wszelkich starań, aby kontrolować różnice w swoich surowych danych (w zależności od tego, kto zdecydował się odebrać telefon) i wyniki faktycznych wyborów. Na przykład, jeśli 10% osób, które odebrały telefon, było Hiszpanami, ale 30% głosujących w ostatnich wyborach było Hiszpanami, to w swojej ankiecie trzykrotnie przewyższą latynoskich wyborców. Jeśli 50% osób, które odebrały telefon, było w wieku powyżej 60 lat, ale tylko 30% osób, które głosowały w ostatnich wyborach, było w wieku powyżej 60 lat, przywiążą mniejszą wagę do starszych wyborców, którzy odpowiedzieli. Nie jest idealny, ale może prowadzić do imponujących wyczynów prognoz (Nate Silver poprawnie przewidział wyniki w każdym z 50 stanów w wyborach w 2012 r., Używając statystyk,
Uwaga dla mądrych: ankieterzy robią najlepsze przewidywania, jakie potrafią, na podstawie tego, jak działało się w przeszłości. Ogólnie rzecz biorąc , rzeczy działają teraz tak samo jak w przeszłości, a przynajmniej zmiana jest na tyle powolna, że niedawna przeszłość (na której koncentrują się najbardziej) będzie przypominać teraźniejszość. Czasami jednak w elektoracie zachodzą szybkie zmiany i wszystko idzie nie tak. Być może wyborcy Trumpa są nieco mniej skłonni niż przeciętny głosujący do odebrania telefonu, a waga według danych demograficznych nie bierze tego pod uwagę. A może młodzi ludzie (którzy w przeważającej mierze popierają Hillary) są jeszcze bardziejraczej nie odbierają telefonu niż przewidują modele, a te, które odbierają telefon, są bardziej republikańskie. A może jest odwrotnie - nie wiemy. takie rzeczy to ukryte zmienne, które nie pojawiają się w często zbieranych danych demograficznych.
Mamy byłoby wiedzieć, czy wysłaliśmy ankieterów zapukać przypadkowych drzwi (hm, wyimaginowany billionare czytając to), ponieważ wtedy nie musiałby rzeczy wagowych w oparciu o dane demograficzne, ale dopiero wtedy, kciuki.