Jedynym sposobem poznania wariancji populacji jest zmierzenie całej populacji.
Jednak pomiar całej populacji często nie jest możliwy; wymaga zasobów, w tym pieniędzy, narzędzi, personelu i dostępu. Z tego powodu próbkujemy populacje; który mierzy podzbiór populacji. Proces pobierania próbek powinien być zaprojektowany starannie i w celu stworzenia populacji próby reprezentatywnej dla populacji; podając dwie kluczowe kwestie - wielkość próby i technikę pobierania próbek.
Przykład zabawki: chcesz oszacować wariancję wagi dla dorosłej populacji Szwecji. Istnieje około 9,5 miliona Szwedów, więc nie jest prawdopodobne, że możesz wyjść i zmierzyć ich wszystkich. Dlatego należy zmierzyć próbkę populacji, na podstawie której można oszacować prawdziwą wariancję wewnątrz populacji.
Udajesz się na próbkę szwedzkiej populacji. Aby to zrobić, idziesz i stoisz w centrum Sztokholmu, a tak się składa, że stoisz przed popularną fikcyjną szwedzką siecią burgerów Burger Kungen . W rzeczywistości pada deszcz i jest zimno (musi być lato), więc stoisz w restauracji. Tutaj ważysz cztery osoby.
Możliwe, że twoja próba nie będzie dobrze odzwierciedlała populacji Szwecji. To, co masz, to próbka ludzi ze Sztokholmu, którzy są w restauracji z burgerami. Jest to zła technika próbkowania, ponieważ może ona wpływać na wynik, nie dając rzetelnej reprezentacji populacji, którą próbujesz oszacować. Ponadto masz niewielki rozmiar próbki, więc masz wysokie ryzyko wybrania czterech osób, które znajdują się w skrajnych populacjach; albo bardzo lekki albo bardzo ciężki. Jeśli pobrano próbkę z 1000 osób, istnieje mniejsze prawdopodobieństwo, że spowoduje ona błąd; jest znacznie mniej prawdopodobne, aby wybrać 1000 osób, które są niezwykłe, niż wybrać cztery, które są niezwykłe. Większy rozmiar próbki dałby przynajmniej dokładniejsze oszacowanie średniej i wariancji wagi wśród klientów Burger Kungen.
Histogram ilustruje wpływ techniki pobierania próbek, rozkład szarości może reprezentować populację Szwecji, która nie je w Burger Kungen (średnia 85 kg), podczas gdy czerwony może reprezentować populację klientów Burger Kungen (średnia 100 kg) , a niebieskie kreski mogą oznaczać cztery osoby, które próbujesz. Prawidłowa technika pobierania próbek musiałaby sprawiedliwie zważyć populację, w tym przypadku ~ 75% populacji, a zatem 75% mierzonych próbek, nie powinno być klientami Burger Kungen.
Jest to poważny problem w przypadku wielu ankiet. Na przykład osoby, które mogą odpowiedzieć na ankiety dotyczące zadowolenia klientów lub ankiety w wyborach, są zwykle nieproporcjonalnie reprezentowane przez osoby o skrajnych poglądach; ludzie o mniej zdecydowanych opiniach wydają się być bardziej powściągliwi w wyrażaniu ich.
Celem testowania hipotez jest ( nie zawsze ) na przykład sprawdzenie, czy dwie populacje różnią się między sobą. Np. Czy klienci Burger Kungen ważą więcej niż Szwedzi, którzy nie jedzą w Burger Kungen? Możliwość dokładnego przetestowania tego zależy od właściwej techniki pobierania próbek i wystarczającej wielkości próbki.
Kod R do przetestowania sprawi, że to wszystko się stanie:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Wyniki:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024