Jeśli zdefiniujesz wariancję jako s2n= - podobny do wariancji populacji, ale z próbką oznacza dla , wtedy obie próbki miałyby tę samą wariancję.MSE=1n∑ni=1(xi−x¯)2μ
Różnica wynika więc wyłącznie z korekty Bessela w zwykłej formule dla wariancji próbki ( , co dostosowuje się do faktu, że średnia próbki jest bliższa danym niż średnia populacji, w celu uczynienia go bezstronnym (przyjmowanie właściwej wartości „średnio”).s2n−1=nn−1⋅MSE=nn−1⋅1n∑ni=1(xi−x¯)2=1n−1∑ni=1(xi−x¯)2
Efekt stopniowo ustępuje wraz ze wzrostem wielkości próbki, ponieważ idzie do 1 jako .n−1nn→∞
, nie ma szczególnego powodu, dla którego musisz używać estymatora bezstronnego dla wariancji - jest całkowicie poprawnym estymatorem, a w niektórych przypadkach może mieć przewagę nad bardziej powszechną formą (bezstronność niekoniecznie jest tak duża sprawa).s2n
Sama wariancja nie jest bezpośrednią miarą rozprzestrzeniania się. Jeśli podwoję wszystkie wartości w moim zestawie danych, twierdzę, że są dwa razy bardziej „rozłożone”. Ale wariancja wzrasta czterokrotnie. Dlatego częściej mówi się, że odchylenie standardowe zamiast wariancji jest miarą rozprzestrzeniania się.
Oczywiście ten sam problem występuje przy odchyleniu standardowym (zwykła wersja ) jak przy wariancji - gdy podwajasz punkty, odchylenie standardowe zmienia się, z tego samego powodu, co dzieje się z wariancją.sn−1
W małych próbkach korekcja Bessela sprawia, że odchylenie standardowe jest nieco mniej intuicyjne jako miara rozproszenia z powodu tego efektu (to, że powielenie próbki zmienia wartość). Ale wiele miar spreadu zachowuje tę samą wartość podczas powielania próbki; Wspomnę o kilku -
sn (oczywiście)
średnie (absolutne) odchylenie od średniej
mediana (absolutne) odchylenie od mediany
zakres międzykwartylowy (przynajmniej dla niektórych definicji kwartylów próbnych)
{3, 5}
wynosi 1, według pierwszej formuły. Jak zauważyłeś, pytający próbował oszacować wariancję populacji, z której zakłada się, że jest to próbka, ale kto wie, czy tak jest, czy nie.