Ta odpowiedź skupia się całkowicie na estymacji trybu z próby, z naciskiem na jedną konkretną metodę. Jeśli istnieje jakikolwiek silny sens, w którym znasz już gęstość, analitycznie lub liczbowo, wtedy preferowaną odpowiedzią jest, krótko mówiąc, poszukiwanie pojedynczego maksimum lub wielu maksimów bezpośrednio, jak w odpowiedzi z @Glen_b.
„Tryby półpróbki” można obliczyć przy użyciu rekurencyjnego wyboru półpróbki o najkrótszej długości. Chociaż ma dłuższe korzenie, doskonałą prezentację tego pomysłu przedstawili Bickel i Frühwirth (2006).
Pomysł oszacowania trybu jako punktu środkowego najkrótszego przedziału zawierającego stałą liczbę obserwacji sięga przynajmniej Daleniusa (1965). Zobacz także Robertson i Cryer (1974), Bickel (2002) oraz Bickel i Frühwirth (2006) na temat innych estymatorów trybu.
nxx( 1 )≤ x( 2 )≤ ⋯ ≤ x( n - 1 )≤ x( n )
Tryb półpróbki definiuje się tutaj przy użyciu dwóch reguł.
n = 1x( 1 )n = 2( x( 1 )+ x( 2 )) / 2n = 3( x( 1 )+ x( 2 )) / 2x( 1 )x( 2 )x( 2 )x( 3 )( x( 2 )+ x( 3 )) / 2x(2 )
n ≥ 43)h1= ⌊ n / 2 ⌋kk + h1x( k + h1)- x( k )k = 1 , ⋯ , n - h1h1+ 1h2)= ⌊ godz1/ 2⌋
x( k ), ⋯ , x( k + h )h = ⌊ n / 2 ⌋( xk+ x( k + h )) / 2xshorth
Niektóre ogólne komentarze dotyczą zalet i wad trybów półpróbkowych, zarówno z punktu widzenia praktycznych analityków danych, jak i matematycznych lub teoretycznych statystyk. Niezależnie od projektu zawsze mądrze będzie porównać wyniki ze standardowymi miarami podsumowującymi (np. Mediany lub średnie, w tym średnie geometryczne i harmoniczne) i powiązać wyniki z wykresami rozkładów. Ponadto, jeśli interesuje Cię istnienie lub zasięg bimodalności lub multimodalności, najlepiej będzie spojrzeć bezpośrednio na odpowiednio wygładzone oszacowania funkcji gęstości.
Oszacowanie trybu Podsumowując, gdzie dane są najgęstsze, tryb półpróbki dodaje zautomatyzowany estymator trybu do przybornika. Bardziej tradycyjne szacunki trybu oparte na identyfikacji pików na histogramach, a nawet wykresach gęstości jądra są wrażliwe na decyzje dotyczące pochodzenia bin lub szerokości lub rodzaju jądra i połowy szerokości jądra, a w każdym razie trudniejsze do zautomatyzowania. Po zastosowaniu do rozkładów, które są nieimodalne i w przybliżeniu symetryczne, tryb półpróbki będzie zbliżony do średniej i mediany, ale bardziej odporny niż średnia na wartości odstające w obu końcach. Po zastosowaniu do rozkładów, które są nieimodalne i asymetryczne, tryb półpróbki będzie zazwyczaj znacznie bliższy trybowi określonemu za pomocą innych metod niż średnia lub mediana.
Prostota Idea trybu półpróbki jest dość prosta i łatwa do wyjaśnienia studentom i badaczom, którzy nie uważają się za specjalistów statystycznych.
Interpretacja graficzna Tryb półpróbki można łatwo powiązać ze standardowymi wyświetlaczami rozkładów, takimi jak wykresy gęstości jądra, skumulowany rozkład i wykresy kwantylowe, histogramy oraz wykresy łodyg i liści.
Jednocześnie zauważ to
Nieużyteczny dla wszystkich rozkładów Po zastosowaniu do rozkładów, które są w przybliżeniu w kształcie litery J, tryb półpróbki przybliża minimum danych. Po zastosowaniu do rozkładów, które są w przybliżeniu w kształcie litery U, tryb połowicznej próby znajdzie się w granicach którejkolwiek połowy rozkładu, która ma wyższą średnią gęstość. Żadne z tych zachowań nie wydaje się szczególnie interesujące ani użyteczne, ale równie mało jest wezwań do podsumowań podobnych do pojedynczego trybu dla rozkładów w kształcie litery J lub U. W przypadku kształtów U bimodalność sprawia, że idea pojedynczego trybu jest dyskusyjna, jeśli nie jest niepoprawna.
Remisy Najkrótsza połowa nie może być jednoznacznie zdefiniowana. Nawet przy danych pomiarowych zaokrąglanie zgłaszanych wartości może często powodować powiązania. Co zrobić z dwiema lub więcej najkrótszymi połówkami, mało było omawianych w literaturze. Pamiętaj, że wiązane połówki mogą się nakładać lub być rozłączne.
hsmode
tt⌈ t / 2 ⌉
- 9 , - 4 , - 1 , 0 , - 1 , 4 , 9- 0,501 + ⌊ n / 2 ⌋nn, co jest trudne do osiągnięcia, biorąc pod uwagę inne dezyderaty, zwłaszcza że długość okna nigdy nie powinna zmniejszać się wraz z rozmiarem próbki. Wolimy wierzyć, że jest to niewielki problem z zestawami danych o rozsądnej wielkości.
1+⌊n/2⌋nnn=1,n=2⌈n/2⌉
1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode
5.00,5.02,5.04
Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers i JW Tukey. 1972. Dokładne szacunki lokalizacji: ankieta i postępy.
Princeton, NJ: Princeton University Press.
Bickel, DR 2002. Solidne estymatory trybu i skośności ciągłych danych. Statystyka obliczeniowa i analiza danych 39: 153-163.
Bickel, DR i R. Frühwirth. 2006. Na szybki, solidny estymator trybu: porównania do innych estymatorów z aplikacjami. Statystyka obliczeniowa i analiza danych 50: 3500-3530.
Dalenius, T. 1965. Tryb - Zaniedbany parametr statystyczny. Journal, Royal Statistics Society A 128: 110-117.
Grübel, R. 1988. Długość stenografii. Annals of Statistics 16: 619-628.
Hampel, FR 1975. Poza parametrami lokalizacji: solidne koncepcje i metody. Biuletyn, Międzynarodowy Instytut Statystyczny 46: 375–382.
Maronna, RA, RD Martin i VJ Yohai. 2006. Solidne statystyki: teoria i metody . Chichester: John Wiley.
Robertson, T. i JD Cryer. 1974. Iteracyjna procedura szacowania trybu. Journal, American Statistics Association 69: 1012-1016.
Rousseeuw, PJ 1984. Najmniejsza mediana regresji kwadratów. Journal, American Statistics Association 79: 871-880.
Rousseeuw, PJ i AM Leroy. 1987. Solidne wykrywanie regresji i wartości odstających . Nowy Jork: John Wiley.
To konto jest oparte na dokumentacji dla
Cox, NJ 2007. HSMODE: Moduł Stata do obliczania trybów półpróbki , http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .
Zobacz także stronę Davida R. Bickela tutaj, aby uzyskać informacje na temat implementacji w innym oprogramowaniu.