Dla jakich (symetrycznych) rozkładów próbka oznacza bardziej wydajny estymator niż mediana próby?


17

Pracowałem w przekonaniu, że mediana próbki jest bardziej niezawodną miarą tendencji centralnej niż średnia próbki, ponieważ ignoruje wartości odstające. Byłem zatem zaskoczony, gdy dowiedziałem się (w odpowiedzi na inne pytanie ), że dla próbek pobranych z rozkładu normalnego wariancja średniej próbki jest mniejsza niż wariancja mediany próbki (przynajmniej dla dużej ).n

Rozumiem matematycznie, dlaczego to prawda. Czy istnieje „filozoficzny” sposób patrzenia na to, który pomógłby intuicyjnie określić, kiedy użyć mediany zamiast średniej dla innych rozkładów?

Czy istnieją narzędzia matematyczne, które pomagają szybko odpowiedzieć na pytanie dla określonej dystrybucji?

Odpowiedzi:


20

Załóżmy, że ograniczamy rozważanie do rozkładów symetrycznych, w których średnia i wariancja są skończone (więc na przykład Cauchy jest wykluczony z rozważenia).

Co więcej, początkowo ograniczę się do ciągłych przypadków unimodalnych, a właściwie głównie do „miłych” sytuacji (chociaż mogę wrócić później i przedyskutować inne przypadki).

Względna wariancja zależy od wielkości próby. Często dyskutuje się o stosunku ( n razy) asymptotycznych wariancji, ale należy pamiętać, że przy mniejszych próbach sytuacja będzie nieco inna. (Mediana czasami jest zauważalnie lepsza lub gorsza niż sugerowałoby to jej zachowanie asymptotyczne. Na przykład, przy normalnej wartości n=3 jej skuteczność wynosi około 74% zamiast 63%. Zachowanie asymptotyczne jest ogólnie dobrym przewodnikiem przy dość umiarkowanym przykładowe rozmiary).

Z asymptotykami można dość łatwo sobie poradzić:

Średnia: n× wariancja = σ2 .

Mediana : n× wariancja = gdzief(m)jest wysokością gęstości na środkowej.1[4f(m)2]f(m)

Więc jeśli , mediana będzie asymptotycznie bardziej wydajna.f(m)>12σ

[W normalnym przypadku , więc1f(m)=12πσ , skąd asymptotyczna sprawność względna2/π)]1[4f(m)2]=πσ222/π

Widzimy, że wariancja mediany będzie zależeć od zachowania gęstości bardzo blisko centrum, podczas gdy wariancja średniej zależy od wariancji pierwotnego rozkładu (na który w pewnym sensie wpływa gęstość wszędzie i na w szczególności tym bardziej, że zachowuje się dalej od centrum)

Oznacza to, że chociaż mediana jest mniej zależna od wartości odstających niż średnia, i często widzimy, że ma mniejszą wariancję niż średnia, gdy rozkład jest gruby (co powoduje więcej wartości odstających), co tak naprawdę wpływa na wydajność mediana jest dodatnia . Często zdarza się, że (dla ustalonej wariancji) istnieje tendencja do łączenia się dwóch.

Mówiąc ogólnie, gdy ogon staje się cięższy, istnieje tendencja do (przy stałej wartości ) rozkładu, aby był „szczytowy” w tym samym czasie (bardziej kurtotyczny, w sensie luźnym). Nie jest to jednak pewne - ma to miejsce w szerokim zakresie powszechnie uważanych gęstości, ale nie zawsze tak jest. Kiedy się utrzyma, wariancja mediany zmniejszy się (ponieważ rozkład ma większe prawdopodobieństwo w bezpośrednim sąsiedztwie mediany), podczas gdy wariancja średniej jest utrzymywana na stałym poziomie (ponieważ ustaliliśmy σ 2 ).σ2σ2

Tak więc w wielu typowych przypadkach mediana często ma tendencję do „lepszego” niż średnia, gdy ogon jest ciężki (ale musimy pamiętać, że stosunkowo łatwo jest zbudować kontrprzykłady). Możemy więc rozważyć kilka przypadków, które mogą pokazać nam to, co często widzimy, ale nie powinniśmy w nich czytać zbyt wiele, ponieważ cięższy ogon zwykle nie idzie w parze z wyższym szczytem.

Wiemy, że mediana wynosi około 63,7% równie wydajna (dla dużych) jak średnia w normie.n

A powiedzmy, że rozkład logistyczny , który podobnie jak normalny, jest w przybliżeniu paraboliczny względem centrum, ale ma cięższe ogony (gdy staje się duży, stają się wykładnicze).x

Jeżeli weźmiemy pod uwagę parametr skali być 1, logistycznej ma wariancję π2/3 i wysokości w mediany 1/4, więc . Stosunek wariancji wynosi wtedyπ2/14f(m)2=4 więc w dużych próbkach, średnia jest w przybliżeniu 82%, jak skuteczne jako średnią.π2/120.82

Rozważmy dwie inne gęstości z ogonami wykładniczymi, ale o różnej szczytowości.

Po pierwsze, rozkład sieczki hiperbolicznej ( )sech , dla którego forma standardowa ma wariancję 1 i wysokość w środku12n=5

Tutaj widzimy, w jaki sposób, przechodząc przez te trzy gęstości (utrzymując stałą wariancji), wzrost wysokości na środkowej:

wprowadź opis zdjęcia tutaj

Czy możemy sprawić, że będzie jeszcze wyżej? Rzeczywiście możemy. Rozważmy na przykład podwójny wykładniczy . Forma standardowa ma wariancję 2, a wysokość na środkowej to1212 , nieco powyżej 0,7). Asymptotyczna wariancja mediany jest o połowę mniejsza niż średnia.

Jeśli sprawimy, że rozkład będzie najwyższy dla danej wariancji (być może przez uczynienie ogona cięższym niż wykładniczy), mediana może być znacznie bardziej wydajna (mówiąc względnie). Naprawdę nie ma limitu, jak wysoko może sięgać ten szczyt.

ν=5 df (właściwie około 4,68) - dla mniejszych df mediana jest bardziej wydajna, dla dużych df średnia to.

...

Przy skończonych rozmiarach próby czasami można jawnie obliczyć wariancję rozkładu mediany. Tam, gdzie jest to niewykonalne - a nawet po prostu niewygodne - możemy użyć symulacji, aby obliczyć wariancję mediany (lub stosunku wariancji *) w losowych próbkach pobranych z rozkładu (co zrobiłem, aby uzyskać małe liczby próbek powyżej ).

* Mimo że często nie potrzebujemy wariancji średniej, ponieważ możemy ją obliczyć, jeśli znamy wariancję rozkładu, może to być bardziej wydajne obliczeniowo, ponieważ działa ona jak zmienna kontrolna (średnia i mediana są często dość skorelowane).


1

f(x)=12e|xμ|,<x<
μX1,X2,,Xn2/n14nf(μ)2=14n/4=1/n<2/n

σ2=11/nn14n(1/2π)2=π2n1.57/n>1/n

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.