Czyli SD czy Mediana MAD, aby podsumować mocno wypaczoną zmienną?


11

Pracuję na mocno wypaczonych danych, więc używam mediany zamiast środka do podsumowania głównej tendencji. Chciałbym mieć miary dyspersji Choć często widzę ludzi raportowania średnią odchylenie standardowe± lub mediany kwartyle± podsumowanie tendencji centralnej, to jest ok zgłosić mediana medianę bezwzględnego dyspersji (MAD)± ? Czy istnieją potencjalne problemy z tym podejściem?

Uważam to podejście za bardziej kompaktowe i intuicyjne niż zgłaszanie dolnych i górnych kwartylów, szczególnie w dużych tabelach pełnych liczb.


3
Myślę, że średnie, środkowe, dolne i górne kwartyle łącznie lepiej opisałyby dane. Możesz znaleźć inne statystyki opisowe tutaj .

1
Chcę być jak najbardziej zwięzły: czy mediana + 2 kwartyle jest w porządku?
Mulone

4
MAD jest świetną statystyką do wyrażania rozproszenia partii danych - jest bardziej odporny na wartości odstające nawet niż przedział międzykwartylowy. Ale może warto pomyśleć o tym, co mediana MAD naprawdę oznacza i jak publiczność powinna go zinterpretować. Nie ma takich samych asymptotycznych lub nierównych czeczejewskich właściwości średniej SD. Być może dlatego takie wyrażenia są rzadko, jeśli w ogóle, używane. ±±±
whuber

1
Zawsze myślałem, że MAD oznacza średnie bezwzględne odchylenie analogiczne do mse, co oznacza średni błąd kwadratu. jest to średnia bezwzględnych odchyleń od średniej, a nie mediana. Czy mam rację, czy idę MAD?
Michael R. Chernick

2
obraz to tysiąc słów, jeśli to możliwe, pokazanie histogramu jest bardzo mocne.
bdeonovic

Odpowiedzi:


7

Nie sądzę, mediana szalony jest właściwe w ogóle. ±

Możesz łatwo budować rozkłady, w których 50% danych jest ułamkowo niższe niż mediana, a 50% danych jest znacznie większa niż mediana - np. (4.9,4.9,4.9,4.9,5,1000000,1000000,100000 , 1000000). Zapis 5.10 0.10 wydaje się sugerować, że wokół jest trochę masy (mediana + szaleństwo ~ = 5,10), i to po prostu nie zawsze tak jest, i nie masz pojęcia, że ​​istnieje duża masa ponad 1000000.±

Kwartyle / kwantyle dają znacznie lepsze wyobrażenie o rozkładzie kosztem dodatkowej liczby - (4.9,5.0,1000000.0). Wątpię, aby pochylenie było trzecim momentem i wydaje mi się, że potrzebuję trzech liczb / wymiarów, aby intuicyjnie wizualizować przekrzywiony rozkład.

To powiedziawszy, nie ma w tym nic złego - po prostu argumentuję tutaj o intuicji i czytelności. Jeśli używasz go dla siebie lub swojej drużyny, zwariuj. Myślę jednak, że wprowadziłoby to zamieszanie wśród szerokiej publiczności.


2
(+1) Chciałbym dodać, że definicja skośności w odniesieniu do trzeciego momentu nie jest obecnie najbardziej akceptowana, ponieważ można ją stosować tylko w przypadku rozkładów z lekkimi ogonami. Bardziej nowoczesne definicje skośności oparte są na kwantylach, niektóre z nich można znaleźć tutaj .

1
@amoeba Czy to jest? Strona Wikipedii dla MAD definiuje ją jako Medianę (| Xi - Medianę (X) |), która wynosi 0,1 z podanymi danymi.
Upper_Case

@Upper_Case Dziękujemy. Myliłem się (zapomniałem o 5-5 = 0 semestrze). Usunę mój komentarz powyżej, aby nie mylić przyszłych czytelników!
ameba

4

Zastosowanie MAD sprowadza się do założenia, że ​​rozkład leżący u podstaw jest symetryczny (odchylenia powyżej mediany i poniżej mediany są traktowane jednakowo). Jeśli Twoje dane są wypaczone, jest to oczywiście błędne: doprowadzi do przeszacowania prawdziwej zmienności twoich danych.

Na szczęście możesz wybrać jedną z kilku alternatyw dla szalonych, które są równie solidne, prawie tak samo łatwe do obliczenia i nie zakładają symetryczności.

Zobacz Rousseeuw i Croux 1992 . Pojęcia te są dobrze wyjaśnione tutaj i realizowane tutaj . Te dwa estymatory należą do tak zwanej klasy statystyki U, dla której istnieje dobrze rozwinięta teoria.


1

„W tym artykule badany jest dokładniejszy wskaźnik asymetrii. W szczególności zaproponowano użycie wariancji lewej i prawej oraz wprowadzono indeks asymetrii oparty na nich. Kilka przykładów pokazuje jego przydatność. Pytanie o dokładniejszą ocenę dyspersji danych o średniej pojawia się we wszystkich niesymetrycznych rozkładach prawdopodobieństwa. Gdy rozkład populacji jest niesymetryczny, średnia i wariancja (lub odchylenie standardowe) zestawu danych nie dają dokładnego wyobrażenia o rozkładzie danych, zwłaszcza kształt i symetria. Argumentuje się, że średnia, proponowana lewa wariancja (lub lewe odchylenie standardowe) i prawa wariancja (lub prawe odchylenie standardowe) dokładniej opisują zestaw danych. ”

Połączyć


3
Zacytowałeś streszczenie artykułu i podałeś coś, co przypomina adres URL (mogłem naprawić link). Tak naprawdę nie szukamy tutaj odpowiedzi; Zachęcam do edytowania odpowiedzi i próby dodania własnych komentarzy na temat tego, dlaczego ten link pomaga odpowiedzieć na pytanie. Odpowiedź byłaby znacznie lepsza, gdybyś wyjaśnił, w jaki sposób ten wskaźnik asymetrii jest powiązany ze średnią tendencją centralną i MAD.
MånsT
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.