Intuicja za odchyleniem standardowym

26

Próbuję uzyskać lepsze intuicyjne zrozumienie odchylenia standardowego.

Z tego, co rozumiem, jest reprezentatywna dla średniej różnic zestawu obserwacji w zbiorze danych ze średniej tego zbioru danych. Jednak NIE jest ona w rzeczywistości równa średnim różnicom, ponieważ nadaje większą wagę obserwacjom w porównaniu do średniej.

Powiedzmy, że mam następującą populację wartości - $\{1, 3, 5, 7, 9\}$

Średnia to . $5$

Jeśli przyjmę miarę spreadu w oparciu o wartość bezwzględną, otrzymam

\frac{\sum_{i = 1}^{5} | x_{i} - μ |}{5} = 2.4

$\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4$

Jeśli wezmę miarę spreadu na podstawie standardowego odchylenia, otrzymam

\sqrt{\frac{\sum_{i = 1}^{5} (x_{i} - μ)^{2}}{5}} = 2.83

$\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83$

Wynik z odchyleniem standardowym jest większy, zgodnie z oczekiwaniami, ze względu na dodatkową wagę, jaką nadaje wartościom większym od średniej.

Ale jeśli powiedziano mi, że mam do czynienia z populacją ze średnią i odchyleniem standardowym jak miałbym wnioskować, że populacja składa się z wartości podobnych do ? Wydaje się, że liczba jest bardzo dowolna ... Nie rozumiem, jak ją interpretować. Czy oznacza, że wartości są rozłożone bardzo szeroko, czy wszystkie są ściśle skupione wokół średniej ... $5$ $2.83$ $\{1, 3, 5, 7, 9\}$ $2.83$ $2.83$

Kiedy zostanie przedstawione oświadczenie, że masz do czynienia z populacją o średniej $5$ i odchyleniu standardowym $2.83$ co to mówi o populacji?

standard-deviation intuition

— GROM dźwiękowy
źródło

2

To pytanie jest powiązane (choć nie jest identyczne) ze stats.stackexchange.com/q/81986/3277 i kolejnym powiązanym z nim.

— ttnphns

1

Mówi ci „typową” odległość od średniej (odległość RMS). Co sprawia, że to „duże” lub „małe” zależy od twoich kryteriów. Jeśli próbujesz zmierzyć tolerancje techniczne, może to być ogromne. W innych kontekstach to samo odchylenie standardowe można uznać za dość małe.

— Glen_b

13

Moją intuicją jest to, że odchylenie standardowe to: miara rozprzestrzeniania się danych.

Masz dobrą rację, że to, czy jest ono szerokie, czy ciasne, zależy od tego, jakie jest nasze podstawowe założenie dotyczące dystrybucji danych.

Zastrzeżenie: Miara rozproszenia jest najbardziej pomocna, gdy rozkład danych jest symetryczny wokół średniej i ma wariancję stosunkowo zbliżoną do rozkładu normalnego. (Oznacza to, że jest w przybliżeniu normalny).

W przypadku, gdy dane są w przybliżeniu normalne, odchylenie standardowe ma interpretację kanoniczną:

Region: Średnia próbki +/- 1 odchylenie standardowe, zawiera około 68% danych
Region: Średnia próbki +/- 2 odchylenie standardowe, zawiera około 95% danych
Region: Średnia próbki +/- 3 odchylenie standardowe, zawiera około 99% danych

(patrz pierwsza grafika na Wiki )

Oznacza to, że jeśli wiemy, że średnia populacji wynosi 5, a odchylenie standardowe wynosi 2,83, i zakładamy, że rozkład jest w przybliżeniu Normalny, powiedziałbym, że jestem dość pewien, że jeśli dokonamy (wielkich) wielu obserwacji, tylko 5% będzie być mniejsze niż 0,4 = 5 - 2 * 2,3 lub większe niż 9,6 = 5 + 2 * 2,3.

Zauważ, jaki wpływ ma odchylenie standardowe na nasz przedział ufności? (im większy spread, tym większa niepewność)

Ponadto, w ogólnym przypadku, gdy dane nie są nawet w przybliżeniu normalne, ale wciąż symetryczne, wiesz, że istnieją pewne dla których: $\alpha$

Region: Średnia odchylenie standardowe próbki +/- , zawiera około 95% danych $\alpha$

Możesz albo nauczyć się z podpróbki, albo założyć a to daje często dobrą praktyczną regułę do obliczania w głowie, jakich przyszłych spodziewanych obserwacji lub które z nowych obserwacji można uznać za wartości odstające. (pamiętaj jednak o zastrzeżeniu!) $\alpha$ $\alpha=2$

Nie rozumiem, jak masz to interpretować. Czy 2,83 oznacza, że wartości są rozłożone bardzo szeroko, czy wszystkie są ściśle skupione wokół średniej ...

Wydaje mi się, że każde pytanie „szerokie lub ciasne” powinno również zawierać: „w stosunku do czego?”. Jedną z sugestii może być użycie dobrze znanej dystrybucji jako odniesienia. W zależności od kontekstu warto zastanowić się: „Czy jest znacznie szerszy, czy węższy niż normalny / Poissona?”.

EDYCJA: W oparciu o przydatną wskazówkę w komentarzach, jeszcze jeden aspekt dotyczący odchylenia standardowego jako miary odległości.

Jeszcze inną intuicją przydatności odchylenia standardowego jest to, że jest to miara odległości między przykładowymi danymi i jego średnią : $s_N$ $x_1,… , x_N$ $\bar{x}$

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}$

Dla porównania średni błąd kwadratu (MSE), jeden z najpopularniejszych mierników błędów w statystykach, definiuje się jako:

$\operatorname{MSE}=\frac{1}{n}\sum_{i=1}^n(\hat{Y_i} - Y_i)^2$

Można postawić pytania, dlaczego powyższa funkcja odległości? Dlaczego na przykład odległości kwadratowe, a nie bezwzględne? I dlaczego przyjmujemy pierwiastek kwadratowy?

Posiadanie kwadratowej odległości, czyli błędu, ma tę zaletę, że możemy je zarówno rozróżnić, jak i łatwo zminimalizować. Jeśli chodzi o pierwiastek kwadratowy, zwiększa interpretowalność, ponieważ przekształca błąd z powrotem do skali naszych obserwowanych danych.

— oznacza znaczenie
źródło

Dlaczego mówisz, że miara rozprzestrzeniania jest najbardziej „pomocna”, gdy dane są normalne? Wydaje mi się, że jakikolwiek zestaw danych ma rozkład, a odchylenie standardowe jest podsumowaniem spreadu, nawet jeśli nie uchwycił kształtu spreadu.

— Michael Lew

Jasne, masz rację. Ale nie twierdziłem, że odchylenie standardowe w jakikolwiek sposób zależy od kształtu rozkładu. Zwykle zwracając uwagę, że JEŻELI masz trochę wiedzy na temat kształtu (lub jesteś gotowy przyjąć to założenie), zazwyczaj jest to o wiele bardziej pomocna informacja. W podobny sposób średnia z próby jest dobrym deskryptorem twoich danych, JEŻELI możesz przyjąć pewne ogólne założenia dotyczące rozkładu.

— oznacza-znaczący

Moim ulubionym powodem używania kwadratu zamiast wartości bezwzględnej jest to, że jest to logarytm prawdopodobieństwa jakiegoś Gaussa. Jeśli więc uważasz, że błędy mają charakter gaussowski i że bity są dobrym sposobem mierzenia informacji, warto zastosować błąd kwadratowy.

— qbolec

5

Może pomóc uświadomić sobie, że średnia jest analogiczna do środka masy . Wariancja jest momentem bezwładności . Odchylenie standardowe to promień bezwładności .

Z perspektywy historycznej spójrz na:

George Airy (1875) O algebraicznej i numerycznej teorii błędów obserwacji i kombinacji obserwacji

Karl Pearson (1894) Wkład w matematyczną teorię ewolucji.

Ten wykres z Airy 1875 pokazuje różne miary odchyleń, które można łatwo przekształcić (str. 17). Odchylenie standardowe nazywane jest „błędem średniej kwadratowej”. Omówiono go również na stronach 20–21, a on uzasadnia jego użycie na stronie 48, pokazując, że najłatwiej jest go obliczyć ręcznie, ponieważ nie ma potrzeby oddzielnego obliczania błędów ujemnych i dodatnich. Termin odchylenie standardowe został wprowadzony przez Pearson w artykule cytowanym powyżej na stronie 75.

wprowadź opis zdjęcia tutaj

Nawiasem mówiąc: należy zauważyć, że użyteczność odchylenia standardowego zależy od zastosowania „prawa błędów”, znanego również jako „krzywa normalna”, które wynika z „bardzo wielu niezależnych przyczyn błędów” (Airy 1875 str. 7). Nie ma powodu, aby oczekiwać, że odchylenia od średniej grupy każdej osoby powinny być zgodne z tym prawem. W wielu przypadkach dla układów biologicznych logarytmiczny rozkład normalny jest lepszym założeniem niż normalny. Widzieć:

Limpert i wsp. (2001) Log-normal Distribution into the Sciences: Keys and Clues

Ponadto wątpliwe jest, czy należy traktować zmienność indywidualną jako hałas, ponieważ proces generowania danych działa na poziomie jednostki, a nie grupy.

— Wściekły
źródło

3

Odchylenie standardowe rzeczywiście przypisuje większą wagę tym, którzy znajdują się dalej od średniej, ponieważ jest to pierwiastek kwadratowy średniej z kwadratowych odległości. Przyczyny zastosowania tego (zamiast proponowanego średniego bezwzględnego odchylenia lub mediany bezwzględnego odchylenia, które stosuje się w solidnych statystykach), częściowo wynikają z faktu, że rachunek różniczkujący jest łatwiejszy w przypadku wielomianów niż w przypadku wartości bezwzględnych. Jednak często chcemy podkreślić skrajne wartości.

Co do pytania o sens intuicyjny - rozwija się ono z czasem. Masz rację, że więcej niż jeden zestaw liczb może mieć tę samą średnią i sd; dzieje się tak, ponieważ średnia i sd to tylko dwie części informacji, a zestaw danych może składać się z 5 części (jako 1,3,5,7,9) lub więcej.

To, czy średnia 5 i sd 2,83 jest „szeroka” czy „wąska”, zależy od dziedziny, w której pracujesz.

Gdy masz tylko 5 liczb, łatwo jest zajrzeć do pełnej listy; gdy masz wiele liczb, bardziej intuicyjne sposoby myślenia o rozłożeniu obejmują takie rzeczy, jak podsumowanie pięciu liczb lub, jeszcze lepiej, wykresy, takie jak wykres gęstości.

— Peter Flom - Przywróć Monikę
źródło

2

Odchylenie standardowe mierzy odległość twojej populacji od średniej jako zmienne losowe.

$X: [0,1] \rightarrow \mathbb{R}$

X (t) = {\begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5} \\ 5 & \frac{2}{5} \leq t < \frac{3}{5} \\ 7 & \frac{3}{5} \leq t < \frac{4}{5} \\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}

$X(t) = \begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5}\\ 5 & \frac{2}{5} \leq t < \frac{3}{5}\\ 7 & \frac{3}{5} \leq t < \frac{4}{5}\\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}$

Powodem, dla którego przechodzimy do funkcji i teorii miary jest to, że musimy mieć systematyczny sposób omawiania, w jaki sposób dwie przestrzenie prawdopodobieństwa są takie same, aż do zdarzeń, które mają zerową szansę wystąpienia. Teraz, kiedy przeszliśmy do funkcji, potrzebujemy poczucia dystansu.

| | Y | |_{p} = {(\int_{0}^{1} | Y (t) |^{p} d t)}^{1 / p}

$||Y||_p = \left(\int_{0}^1|Y(t)|^pdt\right)^{1/p}$

Y : [0, 1] \to R

$Y: [0,1] \rightarrow \mathbb{R}$

1 \leq p < \infty

$1 \leq p < \infty$

d_{p} (Y, Z) = | | X - Z | |_{p}

$d_p(Y,Z) = ||X - Z||_p$

$p=1$

d_{1} (X, 5) = | | X - \underline{5} | |_{1} = 2.4.

$d_1(X,5) = ||X - \underline{5} ||_1 = 2.4.$

p = 2

$p=2$

d_{2} (X, 5) = | | X - \underline{5} | |_{2} = 2.83.

$d_2(X,5) = ||X-\underline{5}||_2 = 2.83.$

$\underline{5}$ $t \mapsto 5$

$d_2$

— SomeEE
źródło

[0, 1]

$[0,1]$

X : {1, 3, 5, 7, 9} \to R

$X:\{1,3,5,7,9\}\to\mathbb{R}$

X (i) = i

$X(i)=i$

{1, 3, 5, 7, 9}

$\{1,3,5,7,9\}$

| | X - 5 | |_{1}

$||X-5||_1$

5

$5$

Tak, wymieniona zmienna losowa jest standardowa dla osób znających się na teorii miary. Miałem nadzieję, że zawęzię to do zrozumienia funkcji i integracji dla osób posiadających jedynie rachunek różniczkowy. Przepiszę średnią jako funkcję.

— SomeEE

d_{2}

$d_2$

L^{2}

$L^2$

d_{2}

$d_2$