Jak mogę zinterpretować wykres procentu przycięcia w porównaniu ze średnią przyciętą?


12

W przypadku części zadania domowego poproszono mnie o obliczenie skróconej średniej dla zbioru danych poprzez usunięcie najmniejszej i największej obserwacji oraz o interpretację wyniku. Średnia obcięta była niższa niż średnia nieprzycięta.

Z mojej interpretacji wynika, że ​​było to spowodowane dodatnim wypaczeniem leżącego u podstaw rozkładu, więc lewy ogon jest gęstszy niż prawy. W wyniku tego skośności usunięcie wysokiego punktu odniesienia pociąga go bardziej w dół niż usuwanie niskiego, które go popycha, ponieważ, mówiąc nieformalnie, więcej niskich danych „czeka, aby zająć jego miejsce”. (Czy to rozsądne?)

Potem zacząłem się zastanawiać, jak wpływa na to procent przycinania, więc obliczyłem średnią przyciętą dla różnych . Mam ciekawy paraboliczny kształt: x¯tr(k)k=1/n,2)/n,,(n2)-1)/nWykres procentu przycinania w porównaniu ze średnią przyciętą;  tworzy wklęsłą krzywą, która wygląda mniej więcej parabolicznie

Nie jestem pewien, jak to interpretować. Intuicyjnie wydaje się, że nachylenie wykresu powinno być (proporcjonalne do) ujemnej skośności części rozkładu w obrębie punktów danych mediany. (Ta hipoteza sprawdza się z moimi danymi, ale mam tylko , więc nie jestem zbyt pewny).kn=11

Czy ten typ wykresu ma nazwę, czy jest powszechnie używany? Jakie informacje możemy uzyskać z tego wykresu? Czy istnieje standardowa interpretacja?


Dla porównania dane są następujące: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

Odpowiedzi:


11

@gung i @kjetil b. halvorsen są poprawne.

Znalazłem takie wykresy w

Rosenberger, JL i M. Gasko. 1983. Porównywanie estymatorów lokalizacji: Średnie przycięte, mediany i trimean. W Zrozumienie solidnej i eksploracyjnej analizy danych , Eds. DC Hoaglin, F. Mosteller i JW Tukey, 297–338. Nowy Jork: Wiley.

i

Davison, AC i DV Hinkley. 1997. Metody ładowania początkowego i ich zastosowanie. Cambridge: Cambridge University Press.

i podaj dalsze przykłady w

Cox, NJ 2013. Przycinanie do smaku. Stata Journal 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [bezpłatny dostęp do pdf]

który omawiał wiele aspektów przyciętych środków.

O ile mi wiadomo, wykres nie ma wyraźnej nazwy. Odrębna nazwa każdej możliwej fabuły byłaby właściwie małym koszmarem: terminologia graficzna jest już strasznym bałaganem. Nazwałbym to po prostu wykresem przyciętej średniej w stosunku do przyciętej liczby, ułamka lub procentu (odwracając w ten sposób sformułowanie OP).

Więcej drobnych komentarzy na temat „kontra”, patrz moja odpowiedź w Heteroscedasticity in Regression

EDYCJA: Aby uzyskać więcej informacji na temat kontra (tylko mavens językowe), zobacz tutaj .


10

Nigdy nie słyszałem o tym wykresie, ale myślę, że jest całkiem fajny; prawdopodobnie ktoś już to zrobił. To, co możesz z tym zrobić, to zobaczyć, jak średnia przesuwa się i / lub stabilizuje, jeśli weźmiesz pod uwagę różne proporcje danych za wartości odstające. Powodem, dla którego otrzymujesz kształt paraboliczny, jest to, że twój (początkowy) rozkład jest wypaczony jako całość, ale stopień pochylenia nie jest taki sam w środku rozkładu. Dla porównania rozważ poniższe wykresy gęstości jądra.

wprowadź opis zdjęcia tutaj

Po lewej stronie znajdują się dane, które są przycinane jeden po drugim. Po prawej stronie znajdują się te dane: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)kwantyle o standardowym rozkładzie logarytmicznym wzięte z percentylów o równych odstępach i pomnożone przez 20, aby zakres wartości był podobny.

Twoje dane zaczynają się przekrzywione w prawo, ale w wierszu 5 są zniekształcone w lewo, więc przycinanie większej ilości danych zaczyna przywracać średnią. Dane po prawej stronie zachowują podobne pochylenie w miarę kontynuowania przycinania.

Poniżej znajduje się wykres dla danych logarytmicznych i danych jednolitych ( z = 1:11bez pochylenia - idealnie symetryczny).

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj


4

Nie sądzę, aby ten rodzaj wykresu miał nazwę, ale to, co robisz, jest rozsądne, a twoja interpretacja, jak sądzę, jest ważna. Myślę, że to, co robisz, jest związane z funkcją wpływu Hampela, patrz https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, szczególnie sekcja o funkcji wpływu empirycznego. A wykres może być z pewnością związany z pewną miarą skośności danych, ponieważ jeśli dane byłyby idealnie symetryczne, wykres byłby płaski. Powinieneś to zbadać!

            EDIT     

Jednym z rozszerzeń tego wykresu jest pokazanie efektu zastosowania różnych przycinania po lewej i prawej stronie. Ponieważ nie jest to zaimplementowane w zwykłej meanfunkcji z argumentem trimw R, napisałem własną funkcję przyciętej średniej. Aby uzyskać bardziej płynny wykres, używam interpolacji liniowej, gdy ułamek przycinania oznacza usunięcie liczby niecałkowitej. Daje to funkcję:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Następnie symuluję niektóre dane i pokazuję wynik jako wykres konturowy:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

dając ten wynik:

wykres konturowy pokazujący efekt przycinania

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.