Wykres pudełkowy ma na celu podsumowanie stosunkowo niewielkiego zestawu danych w sposób, który wyraźnie pokazuje
Centralna wartość.
Rozpiętość „typowych” wartości.
Poszczególne wartości, które tak bardzo odbiegają od wartości centralnej w stosunku do spreadu, że są wyróżniane na szczególną uwagę i oddzielnie identyfikowane (na przykład z nazwy). Są to tak zwane „zidentyfikowane wartości”.
Należy to zrobić w solidny sposób: oznacza to, że wykres pudełkowy nie powinien wyglądać znacząco inaczej, gdy jedna lub stosunkowo niewielka część wartości danych zostanie arbitralnie zmieniona.
Rozwiązanie przyjęte przez wynalazcę Johna Tukeya polega na systematycznym stosowaniu statystyk zamówień - danych sortowanych od najniższej do najwyższej. Dla uproszczenia (wykonał obliczenia mentalnie lub ołówkiem i papierem) Tukey skupił się na medianach : środkowych wartościach partii liczb. (W przypadku partii z parzystymi zliczeniami Tukey zastosował punkt środkowy dwóch średnich wartości.) Mediana jest odporna na zmiany nawet o połowę danych, na których jest oparta, co czyni ją doskonałą jako solidną statystykę. A zatem:
Wartość centralna jest szacowana na podstawie mediany wszystkich danych.
Rozprzestrzenianie się oszacować różnicę między środkowych „górnej połowie” - proces, równą lub powyżej mediany - i „dolna połowa” - Wszystkie dane są równe lub mniejsze niż mediana. Te dwie mediany nazywane są górnymi i dolnymi „zawiasami” lub „czwartymi”. Zwykle są one obecnie zastępowane przez rzeczy zwane kwartylami (które nie mają, niestety, uniwersalnej definicji).
Niewidoczne ogrodzenia do przesiewania wartości odstających są wznoszone 1,5 i 3-krotnie w stosunku do zawiasów (z dala od wartości centralnej).
- „Wartość na każdym końcu najbliższa, ale wciąż wewnątrz ogrodzenia wewnętrznego jest„ przylegająca ”.”
- Wartości poza pierwszym ogrodzeniem nazywane są „wartościami odstającymi”.
- Wartości za drugim płotem są „daleko”.
(Ci, którzy są na tyle starsi, by pamiętać hipisowskiego argota z lat 60., zrozumieją ten żart.)
Ponieważ rozkład jest różnicą wartości danych, ogrodzenia te mają te same jednostki miary, co dane pierwotne: w pytaniu jest to sens „odległości”.
Tukey napisał o wartościach danych do zidentyfikowania
Możemy przynajmniej zidentyfikować skrajne wartości i możemy zrobić dobrze, aby zidentyfikować kilka innych.
Każda graficzna metoda wyświetlania mediany, zawiasów i zidentyfikowanych wartości prawdopodobnie zasługuje na miano „wykresu pudełkowego” (pierwotnie „wykresu pudełkowego i wąsów”). Ogrodzenia zwykle nie są przedstawione. Projekt Tukeya składa się z prostokąta opisującego zawiasy z „talią” na środku. Nie rzucające się w oczy liniowe „wąsy” rozciągają się na zewnątrz od zawiasów do najbardziej wewnętrznych zidentyfikowanych wartości (zarówno powyżej, jak i poniżej ramki). Zazwyczaj te najbardziej wewnętrznie zidentyfikowane wartości są sąsiednimi wartościami zdefiniowanymi powyżej.
W związku z tym domyślnym wyglądem wykresu pudełkowego jest rozciągnięcie wąsów do najbardziej ekstremalnych wartości danych niepowiązanych i identyfikacja (za pomocą etykiet tekstowych) danych obejmujących końce wąsów i wszystkich wartości odstających. Na przykład wulkan Tupungatito to wysoka sąsiednia wartość dla danych wysokości wulkanu pokazana po prawej stronie rysunku: tam wąs zatrzymuje się. Tupungatito i wszystkie wyższe wulkany są oddzielnie identyfikowane.
Aby wiernie wyświetlać dane, odległość na grafice jest proporcjonalna do różnic w wartościach danych. (Każde odstępstwo od bezpośredniej proporcjonalności wprowadziłoby „Lie Factor” w terminologii Tufte'a (1983).)
Te dwa wykresy pudełkowe z książki EDA Tukeya (s. 41) ilustrują komponenty. Warto zauważyć, że zidentyfikował wartości nieprzyległe na górnych i dolnych krańcowych zestawach danych stanów po lewej stronie i jedną niską nieprzeciętną wartość wysokości wulkanów po prawej stronie. Jest to przykład wzajemnego oddziaływania reguł i osądów, które przenikają książkę.
(Możesz stwierdzić, że te zidentyfikowane dane są niepozorne, ponieważ możesz oszacować lokalizacje ogrodzeń. Na przykład zawiasy wysokości stanów wynoszą blisko 11 000 i 1 000, co daje rozpiętość około 10 000. Mnożenie przez 1,5 i 3 daje odległości 15 000 i 30 000. Zatem niewidzialny górny płot musi znajdować się w pobliżu 11 000 + 15 000 = 26 000, a dolny przy 1000 - 15 000 byłby poniżej zera. -29,000.)
Bibliografia
Tufte, Edward. Wizualne wyświetlanie informacji ilościowych. Cheshire Press, 1983.
Tukey, John. Rozdział 2, EDA . Addison-Wesley, 1977.