Różnicą są statystyki podsumowujące: współczynnik Giniego i odchylenie standardowe

Istnieje kilka statystyk podsumowujących. Jeśli chcesz opisać rozkład rozkładu, możesz użyć na przykład odchylenia standardowego lub współczynnika Giniego .

Wiem, że odchylenie standardowe opiera się na tendencji centralnej, tj. Odchyleniu od średniej, a współczynnik Gini to ogólny pomiar dyspersji. Wiem również, że współczynnik Giniego ma dolną i górną granicę [0 1], a odchylenie standardowe nie . Te właściwości są dobrze znane, ale jakie spostrzeżenia może dać standardowe odchylenie, którego Gini nie może i odwrotnie? Gdybym musiał wybrać jeden z dwóch, jakie są zalety korzystania z jednego w porównaniu do drugiego, jeśli chodzi o bycie informacyjnym i wnikliwości.

standard-deviation descriptive-statistics gini

— Olivier_s_j
źródło

Miałeś dziwny wybór tagów. Zredagowałem je.

— ameba

Odpowiedzi:

Dwie rzeczy do rozważenia

Gini jest niezależny od skali, podczas gdy SD jest w oryginalnych jednostkach

Załóżmy, że mamy miarę ograniczoną powyżej i poniżej. SD przyjmuje maksymalną wartość, jeśli połowa pomiarów jest na każdej granicy, podczas gdy Gini przyjmuje maksimum, to jedna jest na jednej granicy, a cała reszta na drugiej.

— mdewey
źródło

Czy uważasz, że moglibyśmy rozszerzyć wykorzystanie Gini w celu uwzględnienia koncentracji / heterogeniczności w metaanalizie? Może to być interesujące jako sposób na ilościowe określenie stężenia w niejednorodności ...

— Joe_74

Ponieważ założeniem jest, że efekty są normalne, to nie. Ale myślę, że pełniejsza dyskusja w tym wątku jest nie na temat

— mdewey

@mdewey To ostatnie zdanie było wnikliwe i najbardziej mi pomogło. Dzięki!

— Olivier_s_j

@mdewey Testowałem to sam z jakimś kodem, ale czy jest gdzieś publikacja na ten temat? Czy dowód? (Mam na myśli ostatnie zdanie)

— Olivier_s_j

@Ojtwist Artykuł w Wikipedii en.wikipedia.org/wiki/Gini_coefficient jest pomocny.

— mdewey

Współczynnik Giniego jest niezmienny dla skali i jest ograniczony, odchylenie standardowe jest niezmienne dla przesunięcia i nieograniczony, więc trudno jest je bezpośrednio porównać. Teraz możesz zdefiniować wersję odchylenia standardowego niezmienną w skali, dzieląc przez średnią (współczynnik zmienności).

Jednak indeks Giniego nadal opiera się na wartościach, a drugi na wartościach kwadratowych, więc można oczekiwać, że na drugi będzie większy wpływ wartości odstających (wartości zbyt niskie lub wysokie). Można to znaleźć w Miarach nierówności dochodów , F De Maio, 2007:

Ta miara nierówności dochodów jest obliczana poprzez podzielenie standardowego odchylenia rozkładu dochodu przez jego średnią. Bardziej równe rozkłady dochodów będą miały mniejsze odchylenia standardowe; jako takie CV będzie mniejsze w bardziej równych społeczeństwach. Pomimo tego, że jest to jedna z najprostszych miar nierówności, wykorzystanie CV było dość ograniczone w literaturze na temat zdrowia publicznego i nie znalazło się w badaniach nad hipotezą nierówności dochodów. Można to przypisać ważnym ograniczeniom miary CV: (1) nie ma górnej granicy, w przeciwieństwie do współczynnika Giniego 18, co utrudnia interpretację i porównanie; oraz (2) na dwa składniki CV (średnia i odchylenie standardowe) mogą mieć nadmierny wpływ anomalnie niskie lub wysokie wartości dochodu. Innymi słowy,

Tak więc współczynnik zmienności jest mniej solidny i wciąż nieograniczony. Aby zrobić kolejny krok, możesz usunąć średnią i zamiast tego podzielić przez bezwzględne odchylenie ( ). Do pewnego stosunek , który można ograniczyć, ponieważ dla wektora . $\ell_1(x-m)=\sum |x_n -m|$ $\ell_1/\ell_2$ $N$ $\ell_2(x)\le \ell_1(x)\le \sqrt{N}\ell_2(x)$

Teraz masz, z indeksem Giniego i współczynnikiem , dwie interesujące miary rzadkości rozkładu, niezmiennej skali i ograniczonej. $\ell_1/\ell_2$

Są one porównywane w Porównując miary rzadkości, 2009. Przebadany pod kątem różnych naturalnych właściwości rzadkości (Robin Hood, Skalowanie, Rising Tide, Klonowanie, Bill Gates i Babies), indeks Gini wyróżnia się jako najlepszy. Ale jego kształt utrudnia korzystanie z funkcji utraty, a w tym kontekście można używać wersji $\ell_1/\ell_2$ .

Więc jeśli nie chcesz scharakteryzować rozkładu prawie Gaussa, jeśli chcesz zmierzyć rzadkość, użyj indeksu Giniego, jeśli chcesz promować rzadkość wśród różnych modeli, możesz wypróbować taki stosunek norm.

Wykład dodatkowy: Średnia różnica Giniego: lepsza miara zmienności dla rozkładów nienormalnych , Shlomo Yitzhaki, 2003, którego streszczenie może wydawać się interesujące:

Ze wszystkich miar zmienności wariancja jest zdecydowanie najbardziej popularna. Ten artykuł dowodzi, że średnia różnica Giniego (GMD), alternatywny wskaźnik zmienności, dzieli wiele właściwości z wariancją, ale może być bardziej pouczająca o właściwościach rozkładów, które odbiegają od normalności

— Laurent Duval
źródło

Odchylenie standardowe ma skalę (powiedzmy ° K, metry, mmHg, ...). Zwykle wpływa to na naszą ocenę jego wielkości. Mamy więc tendencję do preferowania współczynnika zmienności lub nawet lepszego (na próbkach skończonych) błędu standardowego.

Współczynnik Giniego jest konstruowany na (skalowalnych) wartościach procentowych, a zatem nie ma skali na własnej jednostce (jak np. Liczba Macha). Użyj współczynnika Giniego, jeśli chcesz porównać równość udziałów w czymś wspólnym (udziały 100%). Zauważ, że dla tej aplikacji można również zastosować odchylenie standardowe, więc myślę, że twoje pytanie, aby porównać zalety i wady dotyczy tylko tego rodzaju aplikacji. W takim przypadku odchylenie standardowe byłoby również ograniczone do . Oba wskaźniki zależą od liczby (nieujemnych) akcji, ale w przeciwnym kierunku: Gini rośnie wraz ze wzrostem liczby, odchylenie standardowe maleje. $[0,1]$

— Horst Grünbusch
źródło