Istnieją już doskonałe odpowiedzi na to pytanie, ale chcę odpowiedzieć, dlaczego błąd standardowy jest tym, czym jest, dlaczego używamy jako najgorszego przypadku i jak błąd standardowy zmienia się z .np=0.5n
Załóżmy, że przeprowadzamy ankietę tylko jednego wyborcy, zadzwońmy do niego 1 i zapytajmy „czy zagłosujesz na Partię Purpurową?”. Możemy zakodować odpowiedź jako 1 dla „tak” i 0 dla „nie”. Powiedzmy, że prawdopodobieństwo „tak” wynosi . Mamy teraz binarną zmienną losową która wynosi 1 z prawdopodobieństwem i 0 z prawdopodobieństwem . Mówimy, że jest zmienną Bernouilli z prawdopodobieństwem sukcesu , którą możemy zapisać . Oczekiwany lub średnipX1p1−pX1pX1∼Bernouilli(p)X1E(X1)=∑xP(X1=x)xX1. Ale są tylko dwa wyniki, 0 z prawdopodobieństwem i 1 z prawdopodobieństwem , więc suma to po prostu . Zatrzymaj się i pomyśl. To faktycznie wygląda całkowicie rozsądnie - jeśli istnieje 30% szansa, że wyborca 1 poprze Purple Party, a zmieniliśmy kod na 1, jeśli powie „tak” i 0, jeśli powie „nie”, wtedy spodziewaj się, że wyniesie średnio 0,3.1−ppE(X1)=0(1−p)+1(p)=pX1
Pomyślmy, co się stanie, . Jeśli to a jeśli to . Tak więc w rzeczywistości w obu przypadkach. Ponieważ są one takie same, muszą mieć tę samą oczekiwaną wartość, więc . To pozwala mi łatwo obliczyć wariancję zmiennej Bernouilli: używam więc standardowe odchylenie to .X1X1=0X21=0X1=1X21=1X21=X1E(X21)=pVar(X1)=E(X21)−E(X1)2=p−p2=p(1−p)σX1=p(1−p)−−−−−−−√
Oczywiście chcę rozmawiać z innymi wyborcami - nazwijmy ich wyborcami 2, wyborcami 3, aż do wyborców . Załóżmy, że wszyscy mają takie same prawdopodobieństwo wspierania Purple Party. Teraz mamy zmiennych Bernouilli, od , od do , przy czym każda dla od 1 do . Wszystkie mają tę samą średnią, i wariancję, .npnX1X2XnXi∼Bernoulli(p)inpp(1−p)
Chciałbym dowiedzieć się, ile osób w mojej próbce powiedziało „tak” i aby to zrobić, mogę po prostu dodać wszystkie . Napiszę . Mogę obliczyć średnią lub oczekiwaną wartość , stosując regułę, że jeśli te oczekiwania istnieją, i rozszerzając że do . Ale sumuję tych oczekiwań, a każde ma wartość , więc w sumie otrzymuję, żeXiX=∑ni=1XiXE(X+Y)=E(X)+E(Y)E(X1+X2+…+Xn)=E(X1)+E(X2)+…+E(Xn)npE(X)=np. Zatrzymaj się i pomyśl. Jeśli sonduję 200 osób, a każda z nich ma 30% szans, że poprze fioletową imprezę, oczywiście oczekiwałbym, że 0,3 x 200 = 60 osób powie „tak”. Tak więc formuła wygląda dobrze. Mniej „oczywisty” jest sposób obsługi wariancji.np
Jest to zasada, która mówi
, ale można go używać tylko jeśli moje zmienne losowe są niezależne od siebie . Tak dobrze, zróbmy to założenie i zgodnie z podobną logiką, zanim zobaczę, że . Jeśli zmienna jest sumą niezależnych prób Bernoulliego, z identycznym prawdopodobieństwem sukcesu , to mówimy, że ma rozkład dwumianowy, . Właśnie pokazaliśmy, że średnia takiego rozkładu dwumianowego wynosi a wariancja wynosi .
Var(X1+X2+…+Xn)=Var(X1)+Var(X2)+…+Var(Xn)
Var(X)=np(1−p)Xn pXX∼Binomial(n,p)npnp(1−p)
Naszym pierwotnym problemem było oszacowanie na podstawie próby. Rozsądnym sposobem zdefiniowania naszego estymatora jest . Na przykład 64 z naszej próby 200 osób odpowiedziało „tak”, szacujemy, że 64/200 = 0,32 = 32% ludzi twierdzi, że popiera Partię Purpurową. Widać, że jest „skalowane w dół” wersja naszej ogólnej liczby wyborców, tak- . Oznacza to, że wciąż jest zmienną losową, ale nie podąża już za rozkładem dwumianowym. Możemy znaleźć jego średnią i wariancję, ponieważ kiedy zmienną losową za pomocą stałego współczynnika wówczas spełnia ona następujące zasady: (więc skala średnia o ten sam współczynnik ) ipp^=X/np^XkE(kX)=kE(X)kVar(kX)=k2Var(X) . Zauważ, jak wariancja skaluje się według . Ma to sens, gdy wiadomo, że ogólnie wariancja jest mierzona w kwadracie dowolnych jednostek, w których mierzona jest zmienna: nie ma tu zastosowania, ale gdyby nasza zmienna losowa miała wysokość w cm, wówczas wariancja byłaby w które różnią się skalą - jeśli podwoisz długości, zwiększysz czterokrotnie powierzchnię.k2cm2
Tutaj naszym współczynnikiem skali jest . To daje nam . To jest świetne! Średnio nasz estymator jest dokładnie taki, jaki powinien być, prawdziwe (lub populacyjne) prawdopodobieństwo, że losowy wyborca powie, że zagłosuje na Partię Purpurową. Mówimy, że nasz estymator jest bezstronny . Ale chociaż jest to poprawne średnio, czasami będzie za małe, a czasem za wysokie. Możemy zobaczyć, jak źle może być, patrząc na jej wariancję. . Odchylenie standardowe to pierwiastek kwadratowy,1nE(p^)=1nE(X)=npn=pp^Var(p^)=1n2Var(X)=np(1−p)n2=p(1−p)np(1−p)n−−−−−√, a ponieważ pozwala nam zrozumieć, jak źle nasz estymator zostanie wyłączony (jest to w rzeczywistości błąd średniej kwadratowej , sposób obliczania średniego błędu, który traktuje błędy dodatnie i ujemne jako równie złe, przez wyrównywanie ich przed uśrednieniem) , zwykle nazywany jest błędem standardowym . Dobrą zasadą, która dobrze sprawdza się w przypadku dużych próbek i którą można bardziej rygorystycznie rozwiązać za pomocą słynnego Twierdzenia o granicy granicznej , jest to, że przez większość czasu (około 95%) oszacowanie będzie błędne z powodu mniej niż dwóch standardowych błędów.
Ponieważ pojawia się w mianowniku ułamka, wyższe wartości - większych próbek - zmniejszają błąd standardowy. To świetna wiadomość, ponieważ jeśli chcę mały błąd standardowy, po prostu zwiększam rozmiar próbki. Zła wiadomość jest taka, że znajduje się w pierwiastku kwadratowym, więc jeśli czterokrotnie zwiększę wielkość próbki, zmniejszy tylko o połowę standardowy błąd. Bardzo małe błędy standardowe będą obejmować bardzo duże, a więc drogie, próbki. Jest jeszcze jeden problem: jeśli chcę celować w konkretny błąd standardowy, powiedzmy 1%, to muszę wiedzieć, jaką wartość zastosować w moich obliczeniach. Mogę użyć wartości historycznych, jeśli mam wcześniejsze dane z sondowania, ale chciałbym przygotować się na najgorszy możliwy przypadek. Która wartośćnnppjest najbardziej problematyczny? Wykres jest pouczający.
Najgorszy (najwyższy) błąd standardowy wystąpi, gdy . Aby udowodnić, że mogę użyć rachunku różniczkowego, ale pewna algebra w szkole średniej zrobi to samo, o ile wiem, jak „ uzupełnić kwadrat ”. p=0.5
p(1−p)−−−−−−−√=p−p2−−−−−√=14−(p2−p+14)−−−−−−−−−−−−−−√=14−(p−12)2−−−−−−−−−−−√
Wyrażenie to, że nawiasy kwadratowe są kwadratowe, więc zawsze zwróci zero lub odpowiedź pozytywną, która następnie zostanie zabrana z jednej czwartej. W najgorszym przypadku (duży błąd standardowy) zabiera się jak najmniej. Wiem, że najmniejszą wartością, którą można odjąć, jest zero, i to nastąpi, gdy , więc gdy . Rezultatem tego jest to, że dostaję większe standardowe błędy, gdy próbuję oszacować poparcie dla np. Partii politycznych blisko 50% głosów, oraz niższe standardowe błędy w szacowaniu wsparcia dla propozycji, które są znacznie bardziej lub znacznie mniej popularne niż to. W rzeczywistości symetria mojego wykresu i równania pokazuje mi, że otrzymam ten sam błąd standardowy dla moich oszacowań poparcia dla Purple Party, bez względu na to, czy miały one 30% wsparcia popularnego, czy 70%.p−12=0p=12
Ile osób muszę sondować, aby utrzymać standardowy błąd poniżej 1%? Oznaczałoby to, że w przeważającej większości przypadków moje szacunki mieszczą się w granicach 2% właściwej proporcji. Wiem teraz, że najgorszym przypadkiem standardowego błędu jest co daje mi i tak . To by wyjaśniało, dlaczego widzisz liczby ankiet w tysiącach.0.25n−−−√=0.5n√<0.01n−−√>50n>2500
W rzeczywistości niski błąd standardowy nie jest gwarancją dobrego oszacowania. Wiele problemów w ankiecie ma charakter bardziej praktyczny niż teoretyczny. Na przykład założyłem, że próbka składała się z losowych wyborców, z których każdy miał takie samo prawdopodobieństwo , ale pobranie „losowej” próbki w prawdziwym życiu jest trudne. Możesz spróbować przeprowadzić ankietę telefoniczną lub online - ale nie tylko wszyscy mają dostęp do telefonu lub Internetu, ale także ci, którzy nie mają bardzo różnych danych demograficznych (i zamiarów głosowania) od tych, którzy je mają. Aby uniknąć wprowadzania błędu w swoich wynikach, firmy ankietujące faktycznie wykonują wszelkiego rodzaju skomplikowane ważenia swoich próbek, a nie zwykłą średniąp∑Xinktóre wziąłem. Ponadto ludzie okłamują ankieterów! Różne sposoby kompensacji tej możliwości przez ankieterów są oczywiście kontrowersyjne. Możesz zobaczyć różne podejścia do tego, jak firmy ankietowane radziły sobie z tak zwanym Shy Tory Factor w Wielkiej Brytanii. Jedna z metod korekty polegała na sprawdzeniu, jak ludzie głosowali w przeszłości, aby ocenić, jak prawdopodobne jest ich rzekome zamiary głosowania, ale okazuje się, że nawet gdy nie kłamią, wielu wyborców po prostu nie pamięta swojej historii wyborczej . Kiedy już tak się dzieje, szczerze mówiąc, nie ma sensu obniżanie „błędu standardowego” do 0,00001%.
Na koniec, oto kilka wykresów pokazujących, jak pożądany błąd standardowy wpływa na wymaganą wielkość próbki - zgodnie z moją uproszczoną analizą - i jak źle wartość „najgorszego przypadku” jest porównywana z bardziej podatnymi proporcjami. Pamiętaj, że krzywa dla byłaby identyczna z krzywą dla ze względu na symetrię wcześniejszego wykresu p = 0,7 p = 0,3 √p=0.5p=0.7p=0.3p(1−p)−−−−−−−√