Powiedziałbym, że przy takich danych naprawdę trzeba pokazywać wyniki w przekształconej skali. To pierwsza konieczność i ważniejsza kwestia niż precyzyjne narysowanie fabuły pudełkowej.
Ale powtarzam Frankowi Harrella w nawoływaniu do czegoś bardziej pouczającego niż minimalna fabuła pudełkowa, nawet z pewnymi ekstremalnymi punktami. Masz wystarczająco dużo miejsca, aby wyświetlić znacznie więcej informacji. Oto jeden z wielu przykładów, pudełko hybrydowe i wykres kwantylowy. Podobnie jak w twoich danych, porównywane są dwie grupy.
Zajmę się tymi dwoma punktami jeden po drugim i powiem więcej.
Przekształcona skala
W najprostszym przypadku wszystkie twoje wartości mogą być dodatnie i powinieneś najpierw spróbować użyć skali logarytmicznej.
Jeśli masz dokładne zera, pierwiastek kwadratowy lub skala pierwiastka sześciennego poprawi skrajne pochylenie. Niektórzy ludzie są zadowoleni z log (wartość + stała), gdzie stała to najczęściej 1, jako sposób radzenia sobie z zerami.
Implikacje dla wykresów pudełkowych stosowania skali transformowanej są subtelne.
Jeśli zastosujesz wspólną konwencję Tukeya, polegającą na pokazywaniu indywidualnie wszystkich punktów poza górnym kwartylem + 1,5 IQR lub dolnym kwartylem - 1,5 IQR, to prawdopodobnie te granice należy obliczyć na przekształconej skali. To nie to samo, co obliczanie tych limitów na oryginalnej skali, a następnie przekształcanie.
Zamiast tego poparłbym konwencję, która wydaje się być jeszcze mniejszością, polegającą na wyborze kwantyli na końcach wąsów. Jedną z kilku jego zalet jest transformacja kwantyla = kwantyla transformacji, przynajmniej w większości przypadków wystarczająca do celów graficznych. (Drobny druk występuje za każdym razem, gdy kwantyle są obliczane przez interpolację liniową między statystykami sąsiedniego rzędu).
Tę konwencję kwantylową zasugerował dość wyraźnie Cleveland (1985). Dla przypomnienia, ulepszone wykresy pudełkowe z pudełkami na kwartyle, cieńsze pudełka na oktyle zewnętrzne (12,5 i 87,5% punktów) oraz wykresy pasków danych zostały wykorzystane w geografii i klimatologii przez (np.) Matthewsa (1936) i Grove (1956), pod nazwa „diagramy dyspersji”.
Więcej niż działki pudełkowe
Rysunki pudełkowe zostały wynalezione przez Tukeya około 1970 roku i najbardziej widoczne w jego książce z 1977 roku. Wiele z jego celów polegało na promowaniu wykresów, które można szybko narysować za pomocą pióra (cil) i papieru w nieformalnej eksploracji. Sugerował także sposoby identyfikacji możliwych wartości odstających. To było w porządku, ale teraz wszyscy mamy dostęp do komputerów, rysowanie wykresów pokazujących, jeśli nie wszystkie dane, to co najmniej znacznie więcej szczegółów, nie jest problemem. Podsumowująca rola wykresów pudełkowych jest cenna, ale wykres może również pokazać drobną strukturę, na wypadek, gdyby była interesująca lub ważna. (A to, co naukowcy uważają za nieciekawe lub nieważne, może być bardziej uderzające dla ich czytelników).
Jest dużo miejsca na uprzejme spory co do tego, co działa najlepiej, ale moim zdaniem dość nagie wykresy pudełkowe były dość wyprzedane.
Użytkownicy Stata mogą znaleźć więcej informacji na temat programu, który narysował postać w tym poście Statalist . Użytkownicy innego oprogramowania nie powinni mieć trudności z narysowaniem czegoś tak dobrego lub lepszego (inaczej po co korzystać z tego oprogramowania?).
Cleveland, WS 1985. Elementy wykresów danych. Monterey, Kalifornia: Wadsworth.
Grove, AT 1956. Erozja gleby w Nigerii. W esejach geograficznych Steel, RW i Fisher, CA (Eds)
o brytyjskich tropikalnych krainach. Londyn: George Philip, 79-111.
Matthews, HA 1936. Nowe spojrzenie na niektóre znane indyjskie opady deszczu. Scottish Geographical Magazine 52: 84-97.
Tukey, JW 1977. Analiza danych eksploracyjnych. Reading, MA: Addison-Wesley.