Jak przedstawić fabułę pudełka z ekstremalną wartością odstającą?


17

Mógłbym skorzystać z pewnych wskazówek dotyczących prezentacji niektórych danych.

Ten pierwszy wykres stanowi porównanie kontroli przypadku dla cytokiny IL-10. Ręcznie ustawiłem oś y, aby zawierała 99% danych.

IL-10 Z ręczną osią Y.

Ustawiłem to ręcznie, ponieważ grupa przypadków ma skrajnie odstające wartości. Z wartością odstającą

Moi współpracownicy wahają się przed usunięciem wartości odstających z naszego zestawu danych. Nie przeszkadza mi to, ale woleliby nie. To byłoby oczywiste rozwiązanie. Ale jeśli mam zachować wszystkie dane i nie usunąć tej wartości odstającej, jak mogę optymalnie przedstawić ten wykres pudełkowy? Podzielona oś? Czy dopuszczalne jest użycie tylko pierwszego wykresu i zauważenie, że został on skonstruowany tak, aby zawierał wszystkie dane? (Ta opcja jest dla mnie nieuczciwa). Każda rada byłaby świetna.


5
Dlaczego nie zaprezentować obu działek?
Alexis,

Odpowiedzi:


23

Powiedziałbym, że przy takich danych naprawdę trzeba pokazywać wyniki w przekształconej skali. To pierwsza konieczność i ważniejsza kwestia niż precyzyjne narysowanie fabuły pudełkowej.

Ale powtarzam Frankowi Harrella w nawoływaniu do czegoś bardziej pouczającego niż minimalna fabuła pudełkowa, nawet z pewnymi ekstremalnymi punktami. Masz wystarczająco dużo miejsca, aby wyświetlić znacznie więcej informacji. Oto jeden z wielu przykładów, pudełko hybrydowe i wykres kwantylowy. Podobnie jak w twoich danych, porównywane są dwie grupy.

wprowadź opis zdjęcia tutaj

Zajmę się tymi dwoma punktami jeden po drugim i powiem więcej.

Przekształcona skala

W najprostszym przypadku wszystkie twoje wartości mogą być dodatnie i powinieneś najpierw spróbować użyć skali logarytmicznej.

Jeśli masz dokładne zera, pierwiastek kwadratowy lub skala pierwiastka sześciennego poprawi skrajne pochylenie. Niektórzy ludzie są zadowoleni z log (wartość + stała), gdzie stała to najczęściej 1, jako sposób radzenia sobie z zerami.

Implikacje dla wykresów pudełkowych stosowania skali transformowanej są subtelne.

Jeśli zastosujesz wspólną konwencję Tukeya, polegającą na pokazywaniu indywidualnie wszystkich punktów poza górnym kwartylem + 1,5 IQR lub dolnym kwartylem - 1,5 IQR, to prawdopodobnie te granice należy obliczyć na przekształconej skali. To nie to samo, co obliczanie tych limitów na oryginalnej skali, a następnie przekształcanie.

Zamiast tego poparłbym konwencję, która wydaje się być jeszcze mniejszością, polegającą na wyborze kwantyli na końcach wąsów. Jedną z kilku jego zalet jest transformacja kwantyla = kwantyla transformacji, przynajmniej w większości przypadków wystarczająca do celów graficznych. (Drobny druk występuje za każdym razem, gdy kwantyle są obliczane przez interpolację liniową między statystykami sąsiedniego rzędu).

Tę konwencję kwantylową zasugerował dość wyraźnie Cleveland (1985). Dla przypomnienia, ulepszone wykresy pudełkowe z pudełkami na kwartyle, cieńsze pudełka na oktyle zewnętrzne (12,5 i 87,5% punktów) oraz wykresy pasków danych zostały wykorzystane w geografii i klimatologii przez (np.) Matthewsa (1936) i Grove (1956), pod nazwa „diagramy dyspersji”.

Więcej niż działki pudełkowe

Rysunki pudełkowe zostały wynalezione przez Tukeya około 1970 roku i najbardziej widoczne w jego książce z 1977 roku. Wiele z jego celów polegało na promowaniu wykresów, które można szybko narysować za pomocą pióra (cil) i papieru w nieformalnej eksploracji. Sugerował także sposoby identyfikacji możliwych wartości odstających. To było w porządku, ale teraz wszyscy mamy dostęp do komputerów, rysowanie wykresów pokazujących, jeśli nie wszystkie dane, to co najmniej znacznie więcej szczegółów, nie jest problemem. Podsumowująca rola wykresów pudełkowych jest cenna, ale wykres może również pokazać drobną strukturę, na wypadek, gdyby była interesująca lub ważna. (A to, co naukowcy uważają za nieciekawe lub nieważne, może być bardziej uderzające dla ich czytelników).

Jest dużo miejsca na uprzejme spory co do tego, co działa najlepiej, ale moim zdaniem dość nagie wykresy pudełkowe były dość wyprzedane.

Użytkownicy Stata mogą znaleźć więcej informacji na temat programu, który narysował postać w tym poście Statalist . Użytkownicy innego oprogramowania nie powinni mieć trudności z narysowaniem czegoś tak dobrego lub lepszego (inaczej po co korzystać z tego oprogramowania?).

Cleveland, WS 1985. Elementy wykresów danych. Monterey, Kalifornia: Wadsworth.

Grove, AT 1956. Erozja gleby w Nigerii. W esejach geograficznych Steel, RW i Fisher, CA (Eds) o brytyjskich tropikalnych krainach. Londyn: George Philip, 79-111.

Matthews, HA 1936. Nowe spojrzenie na niektóre znane indyjskie opady deszczu. Scottish Geographical Magazine 52: 84-97.

Tukey, JW 1977. Analiza danych eksploracyjnych. Reading, MA: Addison-Wesley.


1
Nigdy wcześniej nie widziałem takiego zestawienia wykresów pudełkowych i ECDF. Bardzo fajny! Co sądzisz o nałożeniu dwóch ECDF na osobny panel?
Frank Harrell,

2
@Frank Harrell Thanks. Nakładanie również jest dobrym pomysłem. Zobacz na przykład stata-journal.com/sjpdf.html?articlenum=gr0018 kilka przykładów w mojej pracy.
Nick Cox,

14

Nie odejmując niczego od doskonałej odpowiedzi Nicka, co moim zdaniem jest warte zaznaczenia i uznania - ale chciałem zbadać kilka możliwości.

Przy tak mocno wypaczonych danych w kilku rzędach wielkości, kreślenie w skali logarytmicznej jest często dość odkrywcze; pamiętaj, że nadal możesz mieć znaczniki i etykiety znaczników w oryginalnych wartościach. (Zgadzam się z punktami Nicka dotyczącymi transformacji, więc nie będę dalej o tym rozszerzać.)

Inną opcją oprócz transformacji jest zrobienie czegoś podobnego do drugiego wykresu, ale zawiera wskazanie wszystkich wartości, które nie są drukowane:

  wprowadź opis zdjęcia tutaj

W ten sposób nie usuwasz wartości odstających, tylko wyświetlasz je inaczej.

Chciałbym jednak przyłączyć się do Franka i Nicka, sugerując użycie bardziej pouczającego wyświetlacza niż zwykły wykres pudełkowy - połączenie wykresu pudełkowego z wykresem kwantowym w poście Nicka wydaje się być szczególnie dobrym pojęciem, chociaż można nakreślić wykres kwantylu lekko nad (lub pod) , jak tutaj) odpowiednie pole zamiast niego:

  wprowadź opis zdjęcia tutaj

Jeśli nie robisz czegoś takiego (powiedzmy, że używasz zwykłego wykresu pudełkowego), sugerowałbym znacznie węższe pudełka.


3
Nakładanie na siebie wykresów kwantowych i pudełkowych jest również atrakcyjne. Podkreśla, że ​​wykres pudełkowy jest redukcją wykresu kwantylowego, chociaż dla niektórych wykres pudełkowy może wydawać się zbędny. Silny nacisk na związek między tymi dwoma wykresami, patrz np. Parzen, E. 1979. Nieparametryczne modelowanie danych statystycznych. Journal of American Statistics Association 74: 105-121
Nick Cox

Czy masz zestaw danych PO? A może drapiesz wykres / udajesz go?
Nick Cox,

2
@ Nick Po prostu udawanie, w zasadzie; Skutecznie zeskrobałem skrajne punkty (tylko ręcznie, było ich tak mało), a następnie wygenerowałem wartości poniżej górnych kwartylów, próbkując z 3 mundurów między znanymi wartościami (3 kwartry i minimum) oraz między górnymi kwartylami a końcem górnych wąsów z wykładniczymi wartościami, a następnie dodał skrajne punkty (tak, aby moje wykresy pudełkowe wyglądały podobnie). Przynajmniej taki jest sedno tego pomysłu. Ekstremalne punkty nie będą dokładne, więc wydrukowane wartości na moim wykresie są bardziej jak przykłady.
Glen_b

@Glen_b Mogę zadać osobne pytanie, jeśli wolisz, ale jakiej metody użyłeś do nałożenia wykresu kwantowego na wykres pudełkowy?
Tavrock

@Tavrock Minęły dwa i pół roku, odkąd to napisałem, więc zgaduję. Oczywistą rzeczą do zrobienia jest wywołanie w pointscelu wyświetlenia wartości kwantyli (wygląda to jak coś po linii xs=sort(x); points(ppoints(xs),xs)wykresu, ale po dokładnym zbadaniu punkty znajdują się poniżej wykresu pola, więc może to być wykres, a następnie wykres pola z dodaniem = PRAWDA lub to być może była fabuła, potem wskazuje, a potem fabuła nad górą ... może
Glen_b

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.