Kurtosis mierzy wartości odstające. Wartości odstające są problematyczne dla standardowych wniosków (np. Testów t, przedziałów t), które są oparte na rozkładzie normalnym. To koniec historii! To naprawdę bardzo prosta historia.
Powodem, dla którego ta historia nie jest doceniana, jest fakt, że wciąż istnieje starożytny mit, że kurtoza mierzy „szczytowość”.
Oto proste wyjaśnienie pokazujące, dlaczego kurtoza mierzy wartości odstające, a nie „szczytowość”.
Rozważ następujący zestaw danych.
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1
Kurtosis jest oczekiwaną wartością (wartości z) ^ 4. Oto (wartości z) ^ 4:
6,51, 0,30, 5,33, 0,45, 0,00, 0,30, 6,51, 0,00, 0,45, 0,30, 0,00, 6,51, 0,00, 0,00, 0,30, 0,00, 27,90, 0,00, 0,30, 0,45
Średnia wynosi 2,78 i jest to szacunek kurtozy. (Odejmij 3, jeśli chcesz nadmiar kurtozy.)
Teraz zamień ostatnią wartość danych na 999, aby stała się wartością odstającą:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999
Oto (wartości z) ^ 4:
0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98
Średnia to 18,05, i to jest szacunek kurtozy. (Odejmij 3, jeśli chcesz nadmiar kurtozy.)
Oczywiście liczą się tylko wartości odstające. Nie ma nic o „szczycie” ani danych w pobliżu środka.
Jeśli wykonasz standardowe analizy statystyczne z drugim zestawem danych, powinieneś spodziewać się kłopotów. Duża kurtoza ostrzega o problemie.
Oto artykuł, który rozwija:
Westfall, PH (2014). Kurtosis as Peakedness, 1905 - 2014. RIP The American Statistician, 68, 191–195.