Oszacowanie parametrów rozkładu normalnego: mediana zamiast średniej?


15

Powszechnym podejściem do szacowania parametrów rozkładu normalnego jest użycie średniej i odchylenia standardowego / wariancji próbki.

Jeśli jednak występują pewne wartości odstające, mediana i odchylenie mediany od mediany powinny być znacznie bardziej niezawodne, prawda?

Na niektórych zbiorów danych Próbowałem, rozkład normalny szacowany przez N(median(x),median|xmedian(x)|) wydaje się produkować znacznie lepsze dopasowanie niż klasyczny N(μ^,σ^) stosując średnią i Odchylenie RMS.

Czy jest jakiś powód, aby nie używać mediany, jeśli zakładasz, że w zbiorze danych występują pewne wartości odstające? Czy znasz jakieś odniesienia do tego podejścia? Szybkie wyszukiwanie w Google nie przyniosło mi przydatnych wyników, które omawiają korzyści płynące z zastosowania median tutaj (ale oczywiście „mediana szacowania parametrów rozkładu normalnego” nie jest bardzo konkretnym zestawem wyszukiwanych haseł).

Mediana odchylenia, czy jest stronnicza? Czy powinienem pomnożyć to przez aby zmniejszyć stronniczość?n1n

Czy znasz podobne niezawodne metody szacowania parametrów dla innych rozkładów, takich jak rozkład gamma lub wykładniczo zmodyfikowany rozkład Gaussa (który wymaga Skośności w szacowaniu parametrów, a wartości odstające naprawdę psują tę wartość)?


2
Jeśli masz wartości odstające, być może twoje rozmieszczenie nie jest tak naprawdę normą Gaussa. To oczywiście nie odpowiada na twoje pytanie, ale, IMO, jest to możliwość, którą należy zawsze rozważać.
sds

2
Nie mam prostej, czystej, matematycznej dystrybucji. Mam prawdziwe dane, które z natury są nieuporządkowane. Żadna dystrybucja nie będzie idealnie pasować, ponieważ nie można już analitycznie poradzić sobie z sytuacją. A wartości odstające są w rzeczywistości moim zainteresowaniem. :-)
Erich Schubert

Odpowiedzi:


15

Obserwacja, że ​​w przykładzie z danymi pochodzącymi z zanieczyszczonego rozkładu Gaussa można uzyskać lepsze oszacowania parametrów opisujących większość danych, używając zamiast med | x - med ( x ) | gdzie mad ( x ) to:madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

- gdzie, jest współczynnikiem spójności zaprojektowanym, aby zapewnić, że E ( szalony ( x ) 2 ) = Var ( x ), gdy x nie jest zanieczyszczony - został pierwotnie wykonany przez Gaussa (Walker , H. (1931)).(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

Nie mogę wymyślić żadnego powodu, aby w tym przypadku nie używać zamiast średniej próbki. Niższa wydajność (u Gaussa!) Szaleństwa może być powodem, aby nie używać szaleństwa w twoim przykładzie. Istnieją jednak równie solidne i wysoce wydajne alternatywy dla szaleńca . Jednym z nich jest Q nmedmadmadmadQn. Ten estymator ma wiele innych zalet. Jest również bardzo niewrażliwy na wartości odstające (w rzeczywistości prawie tak niewrażliwy jak szaleniec). W przeciwieństwie do szaleństwa, nie jest zbudowany wokół oszacowania lokalizacji i nie zakłada, że ​​rozkład niezanieczyszczonej części danych jest symetryczny. Podobnie jak szalenie, opiera się on na statystykach zamówień, dzięki czemu jest zawsze dobrze zdefiniowany, nawet jeśli podstawowy rozkład próbki nie ma momentów. Podobnie jak szalony, ma prostą, wyraźną formę. Nawet bardziej niż szaleniec, nie widzę powodów, by używać przykładowego odchylenia standardowego zamiast w opisanym przykładzie (patrz Rousseeuw i Croux 1993, aby uzyskać więcej informacji na temat Q n ).QnQn

Jeśli chodzi o ostatnie pytanie, o konkretnym przypadku, gdzie , a następniexΓ(ν,λ)

med(x)λ(ν1/3)

i

mad(x)λν

(w obu przypadkach przybliżenia stają się dobre, gdy ), więc ν>1.5

ν^=(med(x)mad(x))2

i

λ^=mad(x)2med(x)

Zobacz Chen i Rubin (1986), aby uzyskać pełne pochodzenie.

  • J. Chen i H. Rubin, 1986. Granice między różnicą między medianą a średnią rozkładów Gamma i Poissona, Statist. Probab Lett., 4, 281–283.
  • PJ Rousseeuw i C. Croux, 1993. Alternatywy dla Median Absolute Deviation Journal of American Statistics Association, t. 88, nr 424, s. 1273–1283
  • Walker, H. (1931). Studia w historii metody statystycznej. Baltimore, MD: Williams & Wilkins Co. ss. 24–25.

1
Φ1(0.75)11.4826

@ErichSchubert: masz rację: zapomniałem drugiej inwersji .. poprawionej.
user603

2
n/(n1)

1
@whuber: dzięki za to, teraz zdaję sobie sprawę, że moje zdanie „to jest podobne duchowo ” może być łatwo źle zrozumiane. Usunąłem to.
user603

1
Uczyniłem część ExNormal osobnym pytaniem: stats.stackexchange.com/questions/48907/... Ale mam jeszcze jeden dla Ciebie: Rozkład LogNormal - obsłużyć poprzez zastosowanie dziennika, a następnie postępować jak przy normalnym rozkładzie?
Erich Schubert

7

Jeśli, jak twierdzisz, dane są normalne, z wyjątkiem niewielkiej części wartości odstających, mediana i absolutne odchylenie bezwzględne będą odporne na rażące błędy, ale nie będą bardzo efektywnie wykorzystywać informacji zawartych w danych niepowiązanych.

Jeśli znasz jakieś a priori związane z odsetkiem wartości odstających, możesz przyciąć tę proporcję dla średniej i Winsorize odchylenie standardowe. Alternatywą, która nie wymaga takiej wiedzy, byłoby użycie estymatorów M dla lokalizacji i powiązanych wielkości dla wariancji. Wzrost wydajności, jeśli twoje założenia są prawidłowe (np. Dane są naprawdę normalne, z wyjątkiem niewielkiego odsetka wartości odstających), może w niektórych okolicznościach być znaczny.

nn1

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.