Dlaczego wariancja próbki zmienia się, jeśli obserwacje są powielone?

25

Mówi się, że wariancja jest miarą rozprzestrzeniania się. Pomyślałem więc, że wariancja 3,5jest równa wariancji, 3,3,5,5ponieważ liczby są równomiernie rozłożone. Ale tak nie jest, wariancja 3,5jest, 2podczas gdy wariancja 3,3,5,5jest 1 1/3.

To mnie zastanawia, biorąc pod uwagę, że wariancja ma być miarą rozprzestrzeniania się.

Więc w tym kontekście, co oznacza miara rozprzestrzeniania się ?

variance

— René Nyffenegger
źródło

32

Jeśli zdefiniujesz wariancję jako $s^2_{n}=$ - podobny do wariancji populacji, ale z próbką oznacza dla , wtedy obie próbki miałyby tę samą wariancję. $\,\text{MSE}\,$ $=\frac1n \sum_{i=1}^n (x_i-\bar{x})^2$ $\mu$

Różnica wynika więc wyłącznie z korekty Bessela w zwykłej formule dla wariancji próbki ( , co dostosowuje się do faktu, że średnia próbki jest bliższa danym niż średnia populacji, w celu uczynienia go bezstronnym (przyjmowanie właściwej wartości „średnio”). $s^2_{n-1}=\frac{n}{n-1}\cdot \text{MSE}=\frac{n}{n-1}\cdot \frac1n \sum_{i=1}^n (x_i-\bar{x})^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$

Efekt stopniowo ustępuje wraz ze wzrostem wielkości próbki, ponieważ idzie do 1 jako . $\frac{n-1}{n}$ $n\to\infty$

, nie ma szczególnego powodu, dla którego musisz używać estymatora bezstronnego dla wariancji - jest całkowicie poprawnym estymatorem, a w niektórych przypadkach może mieć przewagę nad bardziej powszechną formą (bezstronność niekoniecznie jest tak duża sprawa). $s^2_n$

Sama wariancja nie jest bezpośrednią miarą rozprzestrzeniania się. Jeśli podwoję wszystkie wartości w moim zestawie danych, twierdzę, że są dwa razy bardziej „rozłożone”. Ale wariancja wzrasta czterokrotnie. Dlatego częściej mówi się, że odchylenie standardowe zamiast wariancji jest miarą rozprzestrzeniania się.

Oczywiście ten sam problem występuje przy odchyleniu standardowym (zwykła wersja ) jak przy wariancji - gdy podwajasz punkty, odchylenie standardowe zmienia się, z tego samego powodu, co dzieje się z wariancją. $s_{n-1}$

W małych próbkach korekcja Bessela sprawia, że odchylenie standardowe jest nieco mniej intuicyjne jako miara rozproszenia z powodu tego efektu (to, że powielenie próbki zmienia wartość). Ale wiele miar spreadu zachowuje tę samą wartość podczas powielania próbki; Wspomnę o kilku -

$s_n$ (oczywiście)
średnie (absolutne) odchylenie od średniej
mediana (absolutne) odchylenie od mediany
zakres międzykwartylowy (przynajmniej dla niektórych definicji kwartylów próbnych)

— Glen_b - Przywróć Monikę
źródło

3

„Nie ma szczególnego powodu, dla którego musisz używać obiektywnego estymatora” - w rzeczywistości niekoniecznie powinieneś nic szacować . Sam wariant {3, 5}wynosi 1, według pierwszej formuły. Jak zauważyłeś, pytający próbował oszacować wariancję populacji, z której zakłada się, że jest to próbka, ale kto wie, czy tak jest, czy nie.

— Steve Jessop

1

$V\,X = E\,V\,X + V\,E\,X$

Zwykła formuła wariancji próbki kompensuje to, a wariancja średniej próbki jest odwrotnie proporcjonalna do wielkości próbki.

Jako skrajny przykład, pobranie pojedynczej próbki zawsze pokaże wariancję próbki 0, oczywiście nie wskazując wariancji 0 dla rozkładu leżącego u podstaw.

$2/1$ $4/3$ $2/3$ $1$ $4$

— użytkownik80227
źródło

2

Łącząc estymatory ze statystykami , odpowiedź ta dezorientuje, a nie wyjaśnia pytanie. Przeczytaj oryginalną odpowiedź Glen_b w tym wątku. Argument w pierwszych dwóch akapitach jest tajemniczy, ponieważ wydaje się nie mieć znaczenia dla pytania.

— whuber