Intuicja za odchyleniem standardowym


26

Próbuję uzyskać lepsze intuicyjne zrozumienie odchylenia standardowego.

Z tego, co rozumiem, jest reprezentatywna dla średniej różnic zestawu obserwacji w zbiorze danych ze średniej tego zbioru danych. Jednak NIE jest ona w rzeczywistości równa średnim różnicom, ponieważ nadaje większą wagę obserwacjom w porównaniu do średniej.

Powiedzmy, że mam następującą populację wartości -{1,3,5,7,9}

Średnia to .5

Jeśli przyjmę miarę spreadu w oparciu o wartość bezwzględną, otrzymam

i=15|xiμ|5=2.4

Jeśli wezmę miarę spreadu na podstawie standardowego odchylenia, otrzymam

i=15(xiμ)25=2.83

Wynik z odchyleniem standardowym jest większy, zgodnie z oczekiwaniami, ze względu na dodatkową wagę, jaką nadaje wartościom większym od średniej.

Ale jeśli powiedziano mi, że mam do czynienia z populacją ze średnią i odchyleniem standardowym 2,83, to jak miałbym wnioskować, że populacja składa się z wartości podobnych do \ {1, 3, 5, 7, 9 \ } ? Wydaje się, że liczba 2,83 jest bardzo dowolna ... Nie rozumiem, jak ją interpretować. Czy 2,83 oznacza, że ​​wartości są rozłożone bardzo szeroko, czy wszystkie są ściśle skupione wokół średniej ...52.83{1,3,5,7,9}2.832.83

Kiedy zostanie przedstawione oświadczenie, że masz do czynienia z populacją o średniej 5 i odchyleniu standardowym 2.83 co to mówi o populacji?


2
To pytanie jest powiązane (choć nie jest identyczne) ze stats.stackexchange.com/q/81986/3277 i kolejnym powiązanym z nim.
ttnphns

1
Mówi ci „typową” odległość od średniej (odległość RMS). Co sprawia, że ​​to „duże” lub „małe” zależy od twoich kryteriów. Jeśli próbujesz zmierzyć tolerancje techniczne, może to być ogromne. W innych kontekstach to samo odchylenie standardowe można uznać za dość małe.
Glen_b

Odpowiedzi:


13

Moją intuicją jest to, że odchylenie standardowe to: miara rozprzestrzeniania się danych.

Masz dobrą rację, że to, czy jest ono szerokie, czy ciasne, zależy od tego, jakie jest nasze podstawowe założenie dotyczące dystrybucji danych.

Zastrzeżenie: Miara rozproszenia jest najbardziej pomocna, gdy rozkład danych jest symetryczny wokół średniej i ma wariancję stosunkowo zbliżoną do rozkładu normalnego. (Oznacza to, że jest w przybliżeniu normalny).

W przypadku, gdy dane są w przybliżeniu normalne, odchylenie standardowe ma interpretację kanoniczną:

  • Region: Średnia próbki +/- 1 odchylenie standardowe, zawiera około 68% danych
  • Region: Średnia próbki +/- 2 odchylenie standardowe, zawiera około 95% danych
  • Region: Średnia próbki +/- 3 odchylenie standardowe, zawiera około 99% danych

(patrz pierwsza grafika na Wiki )

Oznacza to, że jeśli wiemy, że średnia populacji wynosi 5, a odchylenie standardowe wynosi 2,83, i zakładamy, że rozkład jest w przybliżeniu Normalny, powiedziałbym, że jestem dość pewien, że jeśli dokonamy (wielkich) wielu obserwacji, tylko 5% będzie być mniejsze niż 0,4 = 5 - 2 * 2,3 lub większe niż 9,6 = 5 + 2 * 2,3.

Zauważ, jaki wpływ ma odchylenie standardowe na nasz przedział ufności? (im większy spread, tym większa niepewność)

Ponadto, w ogólnym przypadku, gdy dane nie są nawet w przybliżeniu normalne, ale wciąż symetryczne, wiesz, że istnieją pewne dla których:α

  • Region: Średnia odchylenie standardowe próbki +/- , zawiera około 95% danychα

Możesz albo nauczyć się z podpróbki, albo założyć α = 2, a to daje często dobrą praktyczną regułę do obliczania w głowie, jakich przyszłych spodziewanych obserwacji lub które z nowych obserwacji można uznać za wartości odstające. (pamiętaj jednak o zastrzeżeniu!)αα=2

Nie rozumiem, jak masz to interpretować. Czy 2,83 oznacza, że ​​wartości są rozłożone bardzo szeroko, czy wszystkie są ściśle skupione wokół średniej ...

Wydaje mi się, że każde pytanie „szerokie lub ciasne” powinno również zawierać: „w stosunku do czego?”. Jedną z sugestii może być użycie dobrze znanej dystrybucji jako odniesienia. W zależności od kontekstu warto zastanowić się: „Czy jest znacznie szerszy, czy węższy niż normalny / Poissona?”.

EDYCJA: W oparciu o przydatną wskazówkę w komentarzach, jeszcze jeden aspekt dotyczący odchylenia standardowego jako miary odległości.

Jeszcze inną intuicją przydatności odchylenia standardowego jest to, że jest to miara odległości między przykładowymi danymi x 1 , , x N i jego średnią ˉ x :sNx1,,xNx¯

sN=1Ni=1N(xix¯)2

Dla porównania średni błąd kwadratu (MSE), jeden z najpopularniejszych mierników błędów w statystykach, definiuje się jako:

MSE=1ni=1n(Yi^Yi)2

Można postawić pytania, dlaczego powyższa funkcja odległości? Dlaczego na przykład odległości kwadratowe, a nie bezwzględne? I dlaczego przyjmujemy pierwiastek kwadratowy?

Posiadanie kwadratowej odległości, czyli błędu, ma tę zaletę, że możemy je zarówno rozróżnić, jak i łatwo zminimalizować. Jeśli chodzi o pierwiastek kwadratowy, zwiększa interpretowalność, ponieważ przekształca błąd z powrotem do skali naszych obserwowanych danych.


Dlaczego mówisz, że miara rozprzestrzeniania jest najbardziej „pomocna”, gdy dane są normalne? Wydaje mi się, że jakikolwiek zestaw danych ma rozkład, a odchylenie standardowe jest podsumowaniem spreadu, nawet jeśli nie uchwycił kształtu spreadu.
Michael Lew

Jasne, masz rację. Ale nie twierdziłem, że odchylenie standardowe w jakikolwiek sposób zależy od kształtu rozkładu. Zwykle zwracając uwagę, że JEŻELI masz trochę wiedzy na temat kształtu (lub jesteś gotowy przyjąć to założenie), zazwyczaj jest to o wiele bardziej pomocna informacja. W podobny sposób średnia z próby jest dobrym deskryptorem twoich danych, JEŻELI możesz przyjąć pewne ogólne założenia dotyczące rozkładu.
oznacza-znaczący

Moim ulubionym powodem używania kwadratu zamiast wartości bezwzględnej jest to, że jest to logarytm prawdopodobieństwa jakiegoś Gaussa. Jeśli więc uważasz, że błędy mają charakter gaussowski i że bity są dobrym sposobem mierzenia informacji, warto zastosować błąd kwadratowy.
qbolec

5

Może pomóc uświadomić sobie, że średnia jest analogiczna do środka masy . Wariancja jest momentem bezwładności . Odchylenie standardowe to promień bezwładności .

Z perspektywy historycznej spójrz na:

George Airy (1875) O algebraicznej i numerycznej teorii błędów obserwacji i kombinacji obserwacji

Karl Pearson (1894) Wkład w matematyczną teorię ewolucji.

Ten wykres z Airy 1875 pokazuje różne miary odchyleń, które można łatwo przekształcić (str. 17). Odchylenie standardowe nazywane jest „błędem średniej kwadratowej”. Omówiono go również na stronach 20–21, a on uzasadnia jego użycie na stronie 48, pokazując, że najłatwiej jest go obliczyć ręcznie, ponieważ nie ma potrzeby oddzielnego obliczania błędów ujemnych i dodatnich. Termin odchylenie standardowe został wprowadzony przez Pearson w artykule cytowanym powyżej na stronie 75.

wprowadź opis zdjęcia tutaj

Nawiasem mówiąc: należy zauważyć, że użyteczność odchylenia standardowego zależy od zastosowania „prawa błędów”, znanego również jako „krzywa normalna”, które wynika z „bardzo wielu niezależnych przyczyn błędów” (Airy 1875 str. 7). Nie ma powodu, aby oczekiwać, że odchylenia od średniej grupy każdej osoby powinny być zgodne z tym prawem. W wielu przypadkach dla układów biologicznych logarytmiczny rozkład normalny jest lepszym założeniem niż normalny. Widzieć:

Limpert i wsp. (2001) Log-normal Distribution into the Sciences: Keys and Clues

Ponadto wątpliwe jest, czy należy traktować zmienność indywidualną jako hałas, ponieważ proces generowania danych działa na poziomie jednostki, a nie grupy.


3

Odchylenie standardowe rzeczywiście przypisuje większą wagę tym, którzy znajdują się dalej od średniej, ponieważ jest to pierwiastek kwadratowy średniej z kwadratowych odległości. Przyczyny zastosowania tego (zamiast proponowanego średniego bezwzględnego odchylenia lub mediany bezwzględnego odchylenia, które stosuje się w solidnych statystykach), częściowo wynikają z faktu, że rachunek różniczkujący jest łatwiejszy w przypadku wielomianów niż w przypadku wartości bezwzględnych. Jednak często chcemy podkreślić skrajne wartości.

Co do pytania o sens intuicyjny - rozwija się ono z czasem. Masz rację, że więcej niż jeden zestaw liczb może mieć tę samą średnią i sd; dzieje się tak, ponieważ średnia i sd to tylko dwie części informacji, a zestaw danych może składać się z 5 części (jako 1,3,5,7,9) lub więcej.

To, czy średnia 5 i sd 2,83 jest „szeroka” czy „wąska”, zależy od dziedziny, w której pracujesz.

Gdy masz tylko 5 liczb, łatwo jest zajrzeć do pełnej listy; gdy masz wiele liczb, bardziej intuicyjne sposoby myślenia o rozłożeniu obejmują takie rzeczy, jak podsumowanie pięciu liczb lub, jeszcze lepiej, wykresy, takie jak wykres gęstości.


2

Odchylenie standardowe mierzy odległość twojej populacji od średniej jako zmienne losowe.

X:[0,1]R

X(t)={10t<15315t<25525t<35735t<45945t1

Powodem, dla którego przechodzimy do funkcji i teorii miary jest to, że musimy mieć systematyczny sposób omawiania, w jaki sposób dwie przestrzenie prawdopodobieństwa są takie same, aż do zdarzeń, które mają zerową szansę wystąpienia. Teraz, kiedy przeszliśmy do funkcji, potrzebujemy poczucia dystansu.

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

p=1

d1(X,5)=||X5_||1=2.4.
p=2
d2(X,5)=||X5_||2=2.83.

5_t5

d2


[0,1]X:{1,3,5,7,9}RX(i)=i{1,3,5,7,9}||X5||15

Tak, wymieniona zmienna losowa jest standardowa dla osób znających się na teorii miary. Miałem nadzieję, że zawęzię to do zrozumienia funkcji i integracji dla osób posiadających jedynie rachunek różniczkowy. Przepiszę średnią jako funkcję.
SomeEE

d2

L2d2
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.