Czy stosowanie odchylenia standardowego opiera się na założeniu rozkładu normalnego?

10

Zastanawiam się, czy odchylenie standardowe zawsze było budowane przy założeniu rozkładu normalnego. Innymi słowy, jeśli próbka nie jest normalnie dystrybuowana, to czy stosowanie standardowego odchylenia należy uznać za błąd?

normal-distribution standard-deviation

— Dougal
źródło

3

Równomierny rozkład ma odchylenie standardowe, jak to może być „pomyłka”?

18

Nie. Zastosowanie odchylenia standardowego nie zakłada normalności.

Wariancja zmiennej losowej jest zdefiniowana jako nazwa nazwa nazwa . Dopóki istnieje wariancja, istnieje również odchylenie standardowe. Odchylenie standardowe jest pierwiastkiem kwadratowym wariancji. $\operatorname{Var}(X) = \operatorname{E}[(X - \operatorname{E}[X])^2]$

Możesz użyć wariancji nazwa lub odchylenia standardowego za każdym razem, gdy oba istnieją. Wariancja pojawia się w niezliczonych sytuacjach. $\operatorname{Var}(X)$

Istnieją specjalne twierdzenia, lematy itp. ... chociaż w szczególnym przypadku, gdy podąża za rozkładem normalnym. $X$

Powszechne stosowanie odchylenia standardowego, które zależy od normalności:

Jeśli podąża za rozkładem normalnym, istnieje prawdopodobieństwo około 95%, że mieści się w dwóch standardowych odchyleniach średniej. $X$ $X$

To stwierdzenie jest prawdziwe, jeśli zgodny z rozkładem normalnym (i kilkoma innymi), ale ogólnie nie jest prawdziwe. $X$

Powszechne stosowanie wariancji, która nie zależy od normalności:

Niech będzie zmienną losową o średniej nazwa i wariancja nazwa . Określić dla a niezależnych zmiennych losowych, każdy po identyczny, jak rozkład . $X$ $\operatorname{E}[X] = \mu$ $\operatorname{Var}(X) = \sigma^2$ $X_i$ $i=1, \ldots, n$ $X$

Zdefiniuj średnią próbki na podstawie obserwacji jako: $n$

{\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}

$\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i$

Według centralnego twierdzenia granicznego zbiega się w kierunku normalnie rozmieszczonej zmiennej losowej ze średnią i wariancją . (Dokładniej zbiega się w dystrybucji do jako .) $\bar{X}_n$ $\mu$ $\frac{\sigma^2}{n}$ $\sqrt{n}\left( \bar{X}_n - \mu \right)$ $\mathcal{N}(0,\sigma^2)$ $n \rightarrow \infty$

Praktyczne implikacje to, że próbka średnią dużego mogą być traktowane jako rozkład normalny zmiennej losowej którego odchylenie jest funkcją wariancji . (Recall nazwa ) I ten wynik nie wymaga, aby był normalny. (Wymaga to jednak, aby działało dobrze, jeśli jest w pewnym sensie bliższy rozkładowi normalnemu.) $\bar{X}_n$ $n$ $\frac{\sigma^2}{n}$ $X$ $\operatorname{Var}(X)=\sigma^2$ $X$ $n$ $X$

Twierdzenie o granicy centralnej jest wszechobecnym narzędziem, które wykorzystuje wariancję i nie potrzebuje aby podążać za rozkładem normalnym. $X$ $X$

— Matthew Gunn
źródło

4

Nierówność Czebyszewa nie jest specyficzna dla wariancji: równie przydatna wersja istnieje dla każdego absolutnego momentu o mocy większej niż . Proponuję zatem szukać gdzie indziej z powodów, dla których SD jest ważny i (prawie) uniwersalny, takich jak wyjątkowa rola odgrywana przez wariancję w centralnym twierdzeniu o granicy.

1

$1$

— whuber

@ whuber Tak, zacząłem pisać przykład CLT (teraz go dodałem). CLT jest niezwykle praktycznym powodem do dbania o wariancję.

— Matthew Gunn

1

+1. Należy jednak zauważyć, że chociaż wariancja (wraz ze średnią) daje pełny opis w normalnym przypadku, w przypadku rozkładu nienormalnego może już tak nie być, a inne d3scriptory danych mogą być znacznie lepsze

— kjetil b halvorsen

2

W standardowym ustawieniu IID, w odpowiednich warunkach regularności, $S^2$ (jak również $\hat{\sigma}^2_{ML}$ ) jest bardzo spójnym estymatorem $\mathrm{Var}[X_i]$ . Wynika to bezpośrednio z silnego prawa wielkich liczb. Normalne założenie modelu nie jest potrzebne.

— Zen
źródło