Po co różnicować różnicę zamiast przyjmować wartość bezwzględną w odchyleniu standardowym?
Różnicę x obliczamy na podstawie średniej, ponieważ odległość euklidesowa, proporcjonalna do pierwiastka kwadratowego stopni swobody (liczba x, w miary populacji), jest najlepszą miarą dyspersji.
Obliczanie odległości
Jaka jest odległość od punktu 0 do punktu 5?
- 5−0=5 ,
- |0−5|=5 i
- 52−−√=5
Ok, to jest trywialne, ponieważ jest to jeden wymiar.
Co powiesz na odległość dla punktu w punkcie 0, 0 do punktu 3, 4?
Jeśli możemy przejść tylko w 1 wymiarze na raz (jak w blokach miejskich), po prostu dodajemy liczby. (Jest to czasami znane jako odległość Manhattanu).
Ale co z przejściem w dwóch wymiarach jednocześnie? Następnie (zgodnie z twierdzeniem pitagorejskim, którego wszyscy nauczyliśmy się w szkole średniej), kwadratujemy odległość w każdym wymiarze, sumujemy kwadraty, a następnie pobieramy pierwiastek kwadratowy, aby znaleźć odległość od początku do punktu.
32+42−−−−−−√=25−−√=5
Co powiesz na odległość od punktu na 0, 0, 0 do punktu 1, 2, 2?
To tylko
12+22+22−−−−−−−−−−√=9–√=3
ponieważ odległość dla pierwszych dwóch x stanowi podstawę do obliczenia całkowitej odległości z końcowym x.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
Możemy nadal rozszerzać zasadę kwadratu odległości każdego wymiaru, co uogólnia do tego, co nazywamy odległością euklidesową, dla pomiarów ortogonalnych w przestrzeni hiper-wymiarowej, takich jak:
distance=∑i=1nx2i−−−−−√
a zatem suma kwadratów prostokątnych jest odległością do kwadratu:
distance2=∑i=1nx2i
Co czyni pomiar prostopadłym (lub prostopadłym) do drugiego? Warunkiem jest brak związku między dwoma pomiarami. Chcielibyśmy, aby te pomiary były niezależne i indywidualnie rozmieszczone ( iid ).
Zmienność
Teraz przywołaj wzór na wariancję populacji (z której otrzymamy standardowe odchylenie):
σ2=∑i=1n(xi−μ)2n
Jeśli już wycentrowaliśmy dane na 0, odejmując średnią, mamy:
σ2=∑i=1n(xi)2n
Widzimy więc, że wariancja jest tylko kwadratową odległością podzieloną przez liczbę stopni swobody (liczbę wymiarów, w których zmienne mogą się zmieniać). Jest to również średni wkład do na pomiar. „Średnia kwadratowa wariancja” byłaby również odpowiednim terminem.distance2
Odchylenie standardowe
Następnie mamy odchylenie standardowe, które jest tylko pierwiastkiem kwadratowym wariancji:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
Jest to równoważna odległość podzielona przez pierwiastek kwadratowy stopni swobody:
σ=∑i=1n(xi)2−−−−−−−√n−−√
Średnie odchylenie bezwzględne
Mean Absolute Deviation (MAD), jest miarą dyspersji, która wykorzystuje odległość Manhattanu lub sumę wartości bezwzględnych różnic od średniej.
MAD=∑i=1n|xi−μ|n
Ponownie, zakładając, że dane są wyśrodkowane (średnia odjęta), mamy odległość Manhattanu podzieloną przez liczbę pomiarów:
MAD=∑i=1n|xi|n
Dyskusja
- Średnie bezwzględne odchylenie jest około 0,8 razy (w rzeczywistości2/π−−−√ ) wielkości odchylenia standardowego dla normalnie rozproszonego zestawu danych.
- Niezależnie od rozkładu średnie bezwzględne odchylenie jest mniejsze lub równe odchyleniu standardowemu. MAD rozumie rozproszenie zbioru danych o ekstremalnych wartościach w stosunku do odchylenia standardowego.
- Średnie odchylenie bezwzględne jest bardziej odporne na wartości odstające (tj. Wartości odstające nie mają tak wielkiego wpływu na statystyki, jak na odchylenie standardowe.
- Geometrycznie rzecz biorąc, jeśli pomiary nie są względem siebie ortogonalne (iid) - na przykład, jeśli byłyby dodatnio skorelowane, średnie odchylenie bezwzględne byłoby lepszą statystyką opisową niż odchylenie standardowe, które opiera się na odległości euklidesowej (chociaż jest to zwykle uważane za dobre ).
Ta tabela odzwierciedla powyższe informacje w bardziej zwięzły sposób:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
Komentarze:
Czy masz odniesienie do „średnie odchylenie bezwzględne jest około .8 razy większe niż odchylenie standardowe dla normalnie rozproszonego zestawu danych”? Symulacje, które prowadzę, pokazują, że jest to nieprawidłowe.
Oto 10 symulacji miliona próbek ze standardowego rozkładu normalnego:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Wniosek
Wolimy kwadratowe różnice przy obliczaniu miary dyspersji, ponieważ możemy wykorzystać odległość euklidesową, co daje nam lepszą opisową statystykę dyspersji. Gdy istnieją bardziej względnie ekstremalne wartości, odległość euklidesowa uwzględnia to w statystyce, podczas gdy odległość Manhattanu nadaje każdemu pomiarowi jednakową wagę.