Solidne oszacowanie kurtozy?

Używam zwykłego estymatora kurtozy, , ale zauważam, że nawet małe „odstające” w moim rozkładzie empirycznym , tj. małe szczyty daleko od centrum, wpływają na to ogromnie. Czy istnieje estymator kurtozy, który jest bardziej niezawodny?

\hat{K} = \frac{{\hat{μ}}_{4}}{{\hat{σ}}^{4}}

$\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}$

— yoki
źródło

Istnieje kilka. W tym linku znajdziesz wyczerpujące porównanie z nieoznakowaną wersją artykułu (odpowiednie odniesienie na dole tej odpowiedzi).

Ze względu na ograniczenia problemu rozkład najbardziej niezawodnego z tych algorytmów (L / RMC) wynosi co najwyżej 12,5%. Zaletą L / RMC jest to, że jest oparty na kwantylach i może być interpretowany nawet wtedy, gdy podstawowy rozkład nie ma momentów. Kolejną zaletą jest to, że nie zakłada symetrii rozkładu nieskażonej części danych do pomiaru masy ogona: w rzeczywistości algorytm zwraca dwie liczby: RMC dla prawej masy ogona i LMC dla lewej masy ogona.

Odporność estymatora można zmierzyć na podstawie jego punktu awarii. Pojęcie punktu awarii jest jednak w tym kontekście skomplikowane. Intuicyjnie oznacza to, że przeciwnik musiałby kontrolować co najmniej 12,5% próby, aby ten estymator przyjmował dowolne wartości (należy to rozumieć jako dowolną wartość w zakresie wartości, które estymator może zwrócić, ponieważ miara ciężaru ogona jest zawsze wyrażone w przez konstrukcję: żadna ilość zanieczyszczeń nie może na przykład spowodować, że algorytm zwróci -1!). W praktyce okazuje się, że można zastąpić około 5% próbki nawet bardzo patologicznymi wartościami odstającymi, nie powodując, że najbardziej dotknięty szacunek (zawsze są dwa), odbiega zbytnio od wartości, jaką miał na niezanieczyszczonej próbce. $[0,1]$

L / RMC jest również szeroko wdrażany. Na przykład można znaleźć implementację R tutaj . Jak wyjaśniono w artykule połączonym powyżej, aby obliczyć L / RMC, musisz obliczyć MC (estymator zaimplementowany w łączu) osobno dla lewej i prawej połowy danych. Tutaj (lewa) prawa połowa to podpróbki utworzone z obserwacji (mniejsze) większe niż mediana oryginalnej próbki.

Brys, Hubert, Struyf. (2006). Solidne pomiary ciężaru ogona.

— użytkownik603
źródło

Czy te alternatywne miary masy ogona raczej nie są solidnymi estymatorami kurtozy? To może być to, czego naprawdę chce. ale nie jest to dokładnie to, o co prosił. Czy którekolwiek / wszystkie z tych estymatorów są zbieżne z kurtozą dla dużych próbek?

— andrewH

Podsumowanie z pracy: Przy niezanieczyszczonych danych spełniających warunki uporządkowania wypukłego Van Zweta (w których sens ma miara kurtozy) zbiegają się one w monotonicznej funkcji kurtozy.

— user603

Kurtoza Pearsona mierzy wartości odstające (rzadkie obserwacje ekstremalne), proste i proste. Czego więc szukasz? Miara „szczytowości”? Po pierwsze, wcale nie to mierzy kurtoza Pearsona. Po drugie, jeśli chcesz zmierzyć „szczytowość”, musisz najpierw zdefiniować, co to oznacza. Jeśli możesz to zdefiniować, możesz to oszacować. Jedną z możliwości jest druga pochodna pdf standardowych danych, oceniana w szczycie. (Nie ma za co). Jestem pewien, że są inni.

— Peter Westfall

Właściwie podaję trzy twierdzenia matematyczne, które odnoszą kurtozę do ogonów rozkładu, więc nie można ich sfałszować: (i) Dla wszystkich rozkładów ze skończonym czwartym momentem kurtoza jest między E (Z ^ 4 * I (| Z |> 1) )) i E (Z ^ 4 * I (| Z |> 1)) +1. (ii) W podklasie, dla której gęstość Z ^ 2 jest ciągła i maleje w (0,1), „+1” można zastąpić „+.5”. (iii) Dla dowolnej sekwencji rozkładów mających kurtozę -> nieskończoność, E (Z ^ 4 * I (| Z |> b)) / kurtoza -> 1, dla dowolnego prawdziwego b. Wszystko tutaj: ncbi.nlm.nih.gov/pmc/articles/PMC4321753

— Peter Westfall