Istnieje uogólnienie standardowych wykresów pudełkowych, o których wiem, w których długości wąsów są dostosowywane w celu uwzględnienia wypaczonych danych. Szczegóły lepiej wyjaśniono w bardzo jasnym i zwięzłym białym papierze (Vandervieren, E., Hubert, M. (2004) „Skorygowany wykres pudełkowy dla wypaczonych rozkładów”, patrz tutaj ).
Istnieje implementacja tego ( ), a także matlab (w bibliotece o nazwie ).Rlibrarobustbase::adjbox()libra
Osobiście uważam, że jest to lepsza alternatywa dla transformacji danych (choć opiera się ona również na zasadzie ad hoc, patrz biała księga).
Nawiasem mówiąc, tutaj mam coś do dodania do przykładu Whubera. W zakresie, w jakim omawiamy zachowanie wąsów, naprawdę powinniśmy również wziąć pod uwagę to, co dzieje się, rozważając skażone dane:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
W tym modelu zanieczyszczenia B1 ma zasadniczo logarytmiczny rozkład, z wyjątkiem 20% danych, które są w połowie w lewo, w połowie w prawych odstępach (punkt podziału na sąsiednie pole jest taki sam jak w przypadku zwykłych wykresów pudełkowych, tzn. Zakłada, że 25 procent danych może być złych).
Wykresy przedstawiają klasyczne wykresy pudełkowe transformowanych danych (z wykorzystaniem transformacji pierwiastka kwadratowego)
oraz skorygowany wykres pudełkowy nietransformowanych danych.
W porównaniu do skorygowanych wykresów pudełkowych, pierwsza opcja maskuje rzeczywiste wartości odstające i oznacza dobre dane jako wartości odstające. Ogólnie rzecz biorąc, przyczyni się do ukrycia wszelkich dowodów asymetrii w danych poprzez klasyfikację punktów obrażających jako wartości odstających.
W tym przykładzie podejście polegające na użyciu standardowego wykresu pudełkowego na pierwiastku kwadratowym danych znajduje 13 wartości odstających (wszystkie po prawej), podczas gdy dostosowany wykres pudełkowy znajduje 10 prawych i 14 lewych wartości odstających.
EDYCJA: skorygowane wykresy pudełkowe w pigułce.
W „klasycznych” pudełkach wąsy umieszczane są w:
Pytanie 3Q1 -1,5 * IQR i + 1,5 * IQRQ3
gdzie IQR to zakres między kwantylami, to 25. percentyl, a to 75. percentyl danych. Ogólna zasada polega na traktowaniu wszystkiego poza płotem jako wątpliwych danych (płot to odstęp między dwoma wąsami).Pytanie 3Q1Q3
Ta ogólna zasada jest ad-hoc: uzasadnieniem jest to, że jeśli niezanieczyszczona część danych jest w przybliżeniu gaussowska, wówczas mniej niż 1% dobrych danych zostanie sklasyfikowanych jako złe przy użyciu tej reguły.
Słabością tej reguły ogrodzenia, jak wskazał PO, jest to, że długość dwóch wąsów jest identyczna, co oznacza, że zasada ogrodzenia ma sens tylko wtedy, gdy niezanieczyszczona część danych ma rozkład symetryczny.
Popularnym podejściem jest zachowanie reguły ogrodzenia i dostosowanie danych. Chodzi o to, aby przekształcić dane przy użyciu monotonicznej transformacji skośnej (pierwiastek kwadratowy lub log lub bardziej ogólnie przekształcenia box-cox). Jest to nieco niechlujne podejście: opiera się na logice kołowej (transformacja powinna zostać wybrana, aby skorygować skośność niezanieczyszczonej części danych, która na tym etapie jest nieobserwowalna) i ma tendencję do utrudniania interpretacji danych naocznie. W każdym razie jest to dziwna procedura, w ramach której zmienia się dane, aby zachować to, co przecież jest regułą ad hoc.
Alternatywą jest pozostawienie danych nietkniętych i zmiana reguły wąsów. Skorygowany wykres pudełkowy pozwala zmieniać długość każdego wąsa zgodnie z indeksem mierzącym skośność niezanieczyszczonej części danych:
Q1 - 1,5 * IQR i + 1,5 * IQRexp(M,α)Q3exp(M,β)
Gdzie jest indeksem skośności niezanieczyszczonej części danych (tj. Tak jak mediana jest miarą lokalizacji niezanieczyszczonej części danych lub MAD miarą rozprzestrzeniania się dla niezanieczyszczonej części danych) i są liczbami wybranymi w taki sposób, że w przypadku niezanieczyszczonych rozkładów skośnych prawdopodobieństwo leżenia na zewnątrz ogrodzenia jest względnie małe w dużej kolekcji przekrzywionych rozkładów (jest to doraźna część reguły ogrodzenia).Mα β
W przypadkach, gdy duża część danych jest symetryczna, i wracamy do klasycznych wąsów.M≈0
Autorzy sugerują użycie pary medycznej jako estymatora (patrz odniesienie w białej księdze) ze względu na jego wysoką wydajność (chociaż w zasadzie można zastosować dowolny solidny wskaźnik pochylenia). Wybierając , obliczyli następnie optymalnie i empirycznie (używając dużej liczby przekrzywionych rozkładów) jako:MMαβ
Q1 - 1,5 * IQR i + 1,5 * IQR, jeśliexp(−4M)Q3exp(3M)M≥0
exp ( - 3 M ) Q 3 exp ( 4 M ) M < 0Q1 - 1,5 * IQR i + 1,5 * IQR, jeśliexp(−3M)Q3exp(4M)M<0