Oswajanie skosu… Dlaczego jest tak wiele funkcji skosu?

Mam nadzieję uzyskać lepszy wgląd w cztery rodzaje przekrzywienia tej społeczności.

Typy, o których mówię, są wymienione na stronie pomocy http://www.inside-r.org/packages/cran/e1071/docs/skewness .

Stara metoda nie została wymieniona na stronie pomocy, ale mimo to ją uwzględniam.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Oto artykuł, do którego nawiązuje autor e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes i CA Gill (1998), Porównując miary skośności próbki i kurtozy.

Z mojego czytania tego artykułu wynika, że typ 3 ma najmniejszy błąd.

Oto przykłady skosu z powyższego kodu:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Zauważyłem również, że autor e1071 napisał funkcję pochylenia inną niż uwagi na stronie pomocy. Zwróć uwagę na sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Wszelkie pomysły, dlaczego sqrt (n) jest w pierwszym równaniu? Które równanie lepiej obsługuje przepełnienie / niedopełnienie? Wszelkie inne pomysły, dlaczego są one różne (ale dają takie same wyniki)?

skewness

— Chris
źródło

Twoje pytanie wspomina o „czterech rodzajach przekrzywienia” ... ale następnie podaje link i uruchamia się w kodzie kodu (którego języka nawet nie wspominasz). Aby ludzie nie musieli czytać linków, aby dowiedzieć się, o co pytasz, a dla dobra osób, które nie czytają języka R oraz tych, dla których czytanie kodu jest nieprzydatne w przekazywaniu zrozumienia, pomocne byłoby określenie, które cztery miary skośności, które masz na myśli przed (lub najlepiej zamiast) obszarem kodu. [Kiedy mówisz „czwórka” zamiast „czwórka”, dlaczego myślisz, że są dokładnie cztery, a nie pięć, siedem lub inna liczba?]

— Glen_b

Próbowałem udzielić jakiejś formy odpowiedzi na konkretne pytania, które mogłem znaleźć w twoim poście, i po drodze rozwiązałem szereg problemów, ale poza tym „nadzieja na więcej wglądu” jest zbyt niejasna, aby na nie odpowiedzieć. Czy możesz lepiej określić, o czym chcesz wiedzieć? Na naszej stronie znajduje się wiele pytań dotyczących skośności.

— Glen_b

Dziękuję Glen za twoje posty. Zawarłem R w celach ilustracyjnych i w celu pokazania wzorów. Nie znam też lateksu. :(

— Chris

Zacznijmy od tej, którą opisujesz jako „starą metodę”; jest to druga skośność Pearsona lub skośność środkowa ; w rzeczywistości skośność momentu i te są zasadniczo tego samego rocznika (skośność środkowa jest w rzeczywistości nieco młodsza, ponieważ skośność ta poprzedza wysiłki Pearsona).

Trochę dyskusji na temat niektórych historii można znaleźć tutaj ; ten post może również rzucić nieco światła na kilka innych pytań.

Jeśli przeszukasz naszą stronę za pomocą drugiego skosu Pearsona , trafisz na kilka postów, które zawierają dyskusję na temat zachowania tego środka.

Nie jest to nic dziwniejszego niż moment skośności w moim umyśle; oboje czasami robią dziwne rzeczy, które nie odpowiadają oczekiwaniom ludzi co do pomiaru skośności.

Zwykła forma $b_1$ jest omówione w Wikipedii tutaj ; jak mówi, jest to metoda estymatora momentów i jest rzeczą naturalną do zastosowania, biorąc pod uwagę obliczenia populacji w kategoriach znormalizowanego trzeciego momentu.

Jeśli ktoś używa $s_n$ dla $s_{n-1}$ (tzn. bez korekcji Bessela) otrzymujesz $g_1$ wpisz, o którym wspominasz; oba są tak zwane „metodą chwil”. Nie jest dla mnie jasne, czy warto rozdzielić mianownik, ponieważ niekoniecznie rozkłada to proporcje; warto to zrobić, aby obliczenia odpowiadały temu, czego ludzie mogą oczekiwać od ręki.

Istnieje jednak drugi (równoważny) sposób zdefiniowania skośności populacji pod względem kumulantów (patrz powyższy link w Wikipedii), a jeśli dla skośności próbki użyto obiektywnych oszacowań tych, otrzymujesz $G_1$ .

[Zauważ, że pomnożenie licznika $b_1$ przez $\frac{n^2}{(n-1)(n-2)}$ usuwa to, więc może to być kolejny powód, dla którego ludzie patrzą na tę formę. Jeśli spróbujemy rozdzielić zarówno obliczenia trzeciego, jak i drugiego momentu, uzyskujemy nieco inny czynnik $n,(n-1)$ i $(n-2)$ wychodzi z przodu.]

Wszystkie trzy są po prostu nieco odmiennymi odmianami skosu w trzeciej chwili. W bardzo dużych próbkach naprawdę nie ma różnicy, której używasz. W mniejszych próbkach wszystkie mają nieco inne tendencje i wariancję.

Omówione tutaj formy nie wyczerpują definicji skośności (myślę, że widziałem ich kilkanaście - artykuł w Wikipedii wymienia sporo, ale nawet to nie obejmuje gamy), ani nawet definicje związane z trzecim -mom skosu, którego widziałem więcej niż trzy, które tu wychowałeś.

Dlaczego istnieje wiele miar skośności?

Tak więc (traktując te skośności w trzeciej chwili jako jedną przez chwilę), dlaczego tak wiele różnych skośności? Częściowo dzieje się tak , ponieważ skośność jako pojęcie jest w rzeczywistości dość trudne do określenia. To śliska rzecz, której tak naprawdę nie można przypisać do jednego numeru. W rezultacie wszystkie definicje są w pewnym sensie mniej niż wystarczające, ale zwykle są zgodne z naszym szerokim rozumieniem tego, co naszym zdaniem powinien zrobić miernik skośności. Ludzie próbują wymyślić lepsze definicje, ale stare miary, takie jak klawiatury QWERTY, nigdzie nie idą.

Dlaczego istnieje kilka miar skośności opartych na 3. momencie?

Jeśli chodzi o to, dlaczego tak wiele pochyłości w trzeciej chwili, to po prostu dlatego, że istnieje więcej niż jeden sposób na przekształcenie pomiaru populacji w miarę próby. Widzieliśmy dwie trasy oparte na momentach i jedną opartą na kumulacjach. Moglibyśmy zbudować jeszcze więcej; możemy na przykład spróbować uzyskać obiektywną miarę (małej próby) przy pewnych założeniach dystrybucyjnych lub miarę błędu minimalnego średniego kwadratu lub inną taką wielkość.

Możesz znaleźć niektóre posty na stronie dotyczące oświecenia skośności; są takie, które pokazują przykłady rozkładów, które nie są symetryczne, ale mają skośność zerową w trzecim momencie. Są takie, które pokazują medianę skośności Pearsona, a skośność w trzeciej chwili może mieć przeciwne znaki.

Oto linki do kilku postów związanych ze skośnością:

Czy średnia = mediana oznacza, że rozkład unimodalny jest symetryczny?

W danych skośnych po lewej stronie jaki jest związek między średnią a medianą?

jak określić skośność z histogramu z wartościami odstającymi?

W odniesieniu do twojego ostatniego pytania dotyczącego obliczenia $b_1$ :

$\sqrt{n} \cdot \frac{\sum{(x-\bar{x})^3}}{(\sum({x - \bar{x}})^2)^{3/2}}\qquad$ #z e1071 :: źródło skośności

$\frac{\sum(x - \bar{x})^3/n}{(\sum(x - \bar{x})^2/n)^{3/2}}\qquad$ #z momentów i strony pomocy e1071

Te dwie formy są algebraicznie identyczne; drugi jest wyraźnie napisany w formie „trzeci moment do drugiego momentu do władzy $\frac32$ , podczas gdy pierwszy po prostu anuluje warunki w $n$ i usuwa resztki z przodu. Nie sądzę, że zrobiono to z powodów unikania przepełnienia / niedopełnienia; Wyobrażam sobie, że zostało to zrobione, ponieważ uważano, że było trochę szybsze. [Jeśli problemem jest przepełnienie lub niedopełnienie, prawdopodobnie ułożysz obliczenia inaczej.]

— Glen_b - Przywróć Monikę
źródło