Kiedy skośność jest czymś złym? Rozkłady symetryczne (ogólnie, ale nie zawsze: np. Nie dla rozkładu Cauchy'ego) mają medianę, tryb i średnią bardzo blisko siebie. Zastanów się, czy chcemy zmierzyć lokalizację populacji, warto mieć medianę, tryb i średnią blisko siebie.
Na przykład, jeśli weźmiemy logarytm podziału dochodu , zmniejszamy na tyle skośność, że możemy uzyskać użyteczne modele lokalizacji dochodu. Jednak nadal będziemy mieć cięższy prawy ogon, niż naprawdę chcemy. Aby jeszcze bardziej to zmniejszyć, możemy użyć dystrybucji Pareto . Rozkład Pareto jest podobny do transformacji danych w dzienniku. Teraz zarówno rozkłady Pareto, jak i logarytmiczne mają trudności na dolnym końcu skali dochodów. Na przykład oboje cierpią z powoduln0 = - ∞. Rozwiązanie tego problemu obejmuje transformacje mocy .
Przykład z 25 dochodów w kilogramach dolarów skradzionych ze strony www.
k$ lnk$
28 3.33220451
29 3.36729583
35 3.555348061
42 3.737669618
42 3.737669618
44 3.784189634
50 3.912023005
52 3.951243719
54 3.988984047
56 4.025351691
59 4.077537444
78 4.356708827
84 4.430816799
90 4.49980967
95 4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514
Skośność pierwszej kolumny wynosi 0,99, a drugiej wynosi -0,05. Pierwsza kolumna prawdopodobnie nie jest normalna (Shapiro-Wilk p = 0,04), a druga nie jest znacząco nienormalna (p = 0,57).
First column Mean 90.0 (95% CI, 68.6 to 111.3) Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)
Pytanie brzmi zatem: jeśli jesteś osobą losową, która ma jeden z zarobków, jakie możesz zarobić? Czy uzasadnione jest stwierdzenie, że zarobiłbyś 90 tys. Lub więcej niż mediana 84 tys.? A może bardziej prawdopodobne jest stwierdzenie, że nawet mediana jest tendencyjna jako miara lokalizacji i żeexp[ znaczy ln( k $ ) ] 76,7 k, czyli mniej niż mediana, jest również bardziej uzasadniony jako szacunek?
Oczywiście log-norma tutaj jest lepszym modelem, a średni logarytm daje nam lepszą miarę lokalizacji. To, że jest to dobrze znane, o ile nie do końca zrozumiane, ilustruje zwrot „Przewiduję uzyskanie pięciocyfrowej pensji”.