Jakie są względne zalety danych Winsorizing vs. Trimming?

31

Winsorizing danych oznacza zastąpienie ekstremalnych wartości zestawu danych pewną wartością percentyla z każdego końca, natomiast przycinanie lub obcinanie wymaga usunięcia tych ekstremalnych wartości.

Zawsze widzę obie metody omawiane jako realną opcję zmniejszenia efektu wartości odstających podczas obliczania statystyk, takich jak średnia lub odchylenie standardowe, ale nie widziałem, dlaczego można wybrać jedną z nich.

Czy istnieją jakieś względne zalety lub wady korzystania z Winsorizing lub Trimingu? Czy istnieją sytuacje, w których jedna metoda byłaby lepsza? Czy używa się go częściej w praktyce, czy zasadniczo są one wymienne?

— Brian
źródło

2

Terminologia tutaj wprowadza w błąd. Przycinanie oznacza ignorowanie ekstremalnych wartości, pewnej części w każdym ogonie. Nie oznacza to usunięcia ani upuszczenia wartości w ogonach, zwłaszcza dlatego, że możesz i zwykle powinieneś uwzględnić je w innych analizach. Termin „obcinanie” najlepiej jest rezerwować dla innych znaczeń. Patrz np. En.wikipedia.org/wiki/Truncation_(statistics)

— Nick Cox

11

W innym, ale pokrewnym pytaniu na temat przycinania, które właśnie natknąłem się, jedna odpowiedź miała następujący pomocny wgląd w to, dlaczego można zastosować wygrywanie lub przycinanie:

Jeśli wybierzesz skróconą dystrybucję, wyraźnie oświadczasz: Nie jestem zainteresowany wartościami odstającymi / ogonami dystrybucji. Jeśli uważasz, że „wartości odstające” są naprawdę wartościami odstającymi (tj. Nie należą do rozkładu, ale są „innego rodzaju”), to przycinaj. Jeśli uważasz, że należą one do dystrybucji, ale chcesz mieć mniej zniekształconą dystrybucję, możesz pomyśleć o wygranej.

Jestem ciekawy, czy istnieje bardziej ostateczne podejście, ale powyższa logika brzmi rozsądnie.

— Brian
źródło

4

Dobre pytanie, które pojawia się bardzo często we wszystkich dziedzinach! W obu przypadkach usuwasz je technicznie ze zbioru danych.

Wiem, że powszechną praktyką jest graficzna próba znalezienia trendu w celu zastosowania formy obcięcia: wykorzystaj cały zestaw danych do celów kreślenia, ale następnie wyklucz ekstremalne wartości do interpretacji.

Problem z „wygrywaniem win” polega na tym, że dodawane przez Ciebie części są samouzupełniające, to znaczy pochodzą z samego zestawu danych, więc po prostu go obsługują. Istnieją proste problemy, jeśli spojrzysz na prace związane z walidacją krzyżową / klasyfikacją w uczeniu maszynowym, kiedy decydujesz, jak korzystać ze szkoleń i zestawów danych testowych.

W żadnym wypadku nie spotkałem się z ujednoliconym podejściem - zawsze dotyczy ono danych. Możesz spróbować dowiedzieć się, który percentyl twoje dane (wartości odstające) powodują dany procent zmienności / st. odchylenie i znajdź równowagę między zmniejszeniem tej zmienności, a zachowaniem jak największej ilości danych.

— n1k31t4
źródło

6

Jak w moim komentarzu powyżej, „usuwanie ich ze zbioru danych” jest tutaj zbyt mocne. Przycinanie lub wygrywanie wins oznacza po prostu to, co robi, ignorując lub zastępując, w niektórych przypadkach, pewne obliczenia. Nie jesteś zobowiązany do usunięcia wartości ogon z zestawu danych, jakbyś wyrzucając zgniłe owoce. Na przykład, w obliczu możliwych wartości odstających, możesz przeprowadzić analizę nadchodzących danych oraz analizę opartą na przycinaniu i zobaczyć, jaką to robi różnicę.

— Nick Cox,

-1

To dobre pytanie, z którym miałem do czynienia. W przypadkach, w których masz duży zestaw danych, a dokładniej bardzo zróżnicowany zestaw danych, w którym mniejszość wartości danych różni się w szerokim zakresie (ale mimo to należy je pokazać), a większość zestawu danych mieści się w wąskim paśmie, tak, że jeśli dane są wykreślane w stanie, w jakim się znajdują, szczegóły, w których większość danych leży, są tracone, a normalizacja lub standaryzacja nie wykazuje odpowiedniego zróżnicowania (przynajmniej wizualnie), lub zamiast tego wymagane są surowe dane, a następnie obcięcie lub wygrana ekstremalne wartości danych pomagają w lepszej wizualizacji danych.

— Gość
źródło

To dobre pytanie, ale nie odpowiadasz na nie. Po prostu mówisz, że obcięcie lub Winsorizing może pomóc w wizualizacji.

— Nick Cox

-2

Jedną z zalet Winsorizing jest to, że obliczenia mogą być bardziej wydajne. Aby obliczyć prawdziwą średnią obciętą, musisz posortować wszystkie elementy danych, a zwykle jest to . Istnieją jednak skuteczne sposoby obliczenia tylko 25% i 75% percentyli za pomocą algorytmu szybkiego wyboru, który zwykle jest . Jeśli znasz te punkty końcowe, możesz ponownie szybko zapętlić dane i zastąpić wartości mniejsze niż 25% wartością 25% i więcej niż 75% 75% i średnią. Jest to identyczne ze środkiem Winsora. Ale zapętlanie danych i tylko uśrednianie danych między wartością 25% a wartością 75% NIE jest identyczne ze średnią obciętą, ponieważ wartości 25% lub 75% mogą nie być wartością unikalną. Rozważ sekwencję danych $O(n \log n)$ $O(n)$ $(1,2,3,4,4)$ . Średnia Winsor to . Prawidłowa skrócona średnia powinna wynosić . Średnia zoptymalizowana „szybka selekcja” będzie wynosić . $(2+2+3+4+4)/5$ $(2+3+4)/3$ $(2+3+4+4)/4$

— Mark Lakata
źródło

1

Nie jest tak, że musisz posortować wszystkie dane, aby obliczyć medianę (tak prawdziwą medianę, jak chcesz), ani nie jest prawdą, że znalezienie jej jest obliczeniem . Istnieją algorytmy pozwalające znaleźć medianę (najgorszy przypadek). [Ponadto, jeśli szybki wybór mógłby znaleźć 25. i 75. percentyl w O (n), jak mówisz, dlaczego szybki wybór nie byłby w stanie znaleźć 50. percentyla w tej samej kolejności?]

O (n \log n)

$O(n\log n)$

O (n)

$O(n)$

— Glen_b -Reinstate Monica

Masz rację. Źle wpisałem swój oryginalny post. Czasami palce do pisania i mózg nie są zsynchronizowane. Chciałem powiedzieć, że aby poprawnie obliczyć prawdziwy skrócony środek , musisz posortować wszystkie elementy danych. Wierzę, że to nadal prawda. Zaktualizowałem przez odpowiedź.

— Mark Lakata

2

Wydaje się to sugerować, że Winsorizing oznacza Winsorizing 25% w każdym ogonie. Możesz Winsorize tyle, ile wydaje się właściwe.

— Nick Cox,