Zrozumienie wąsów z fabuły

Mam pytanie dotyczące interpretacji wąsów z fabuły. Przeczytałem: „U góry iu dołu prostokąta„ wąsy ”pokazują zakres 1,5-krotności odległości między kwantylami 0,25 i 0,75”, ale nie do końca rozumiem, co oznacza „odległość” .

Nie może być tak, że chodzi o masę prawdopodobieństwa, ponieważ między kwantylem od 0,25 do 0,75 oczywiście zawsze mamy ten sam procent danych. Jaki jest zatem pomysł?

data-visualization boxplot

— Gość555
źródło

Wartość X, która odpowiada kwantylowi 75 minus wartość X, która odpowiada 25-tej, to odległość. Na przykład w przypadku testu matematycznego SAT 620 jest 75., a 520 25 kwantylem. Więc jeśli zdobędziesz wynik powyżej 620, jesteś lepszy niż 75% osób zdających test. Wąsy przedłużałyby się do 1,5 * (620-520) punktów.

— Dimitriy V. Masterov
źródło

No cóż, ale wtedy wąsy byłyby tej samej długości po obu stronach pudełka (co niekoniecznie ma miejsce).

— Guest555

+1, (nieco więcej) pełna odpowiedź brzmi: wąsy mają do 1,5 * IQR, jeśli nie masz więcej danych w tym przedziale, wąsy zatrzymują się na krótko. Ponadto wszelkie dodatkowe dane poza tym punktem są wykreślane indywidualnie jako potencjalne wartości odstające.

— Gung - Przywróć Monikę

Z tym małym dodatkowym wyjaśnieniem jest teraz jasne, wielkie dzięki!

— Guest555

Zredagowałem odpowiedź z doskonałym punktem @ gung.

— Dimitriy V. Masterov

@gung, a jeszcze bardziej kompletna odpowiedź jest taka, że wąsy zawsze leżą na istniejącym punkcie danych

— hadley

Wykres pudełkowy ma na celu podsumowanie stosunkowo niewielkiego zestawu danych w sposób, który wyraźnie pokazuje

Centralna wartość.
Rozpiętość „typowych” wartości.
Poszczególne wartości, które tak bardzo odbiegają od wartości centralnej w stosunku do spreadu, że są wyróżniane na szczególną uwagę i oddzielnie identyfikowane (na przykład z nazwy). Są to tak zwane „zidentyfikowane wartości”.

Należy to zrobić w solidny sposób: oznacza to, że wykres pudełkowy nie powinien wyglądać znacząco inaczej, gdy jedna lub stosunkowo niewielka część wartości danych zostanie arbitralnie zmieniona.

Rozwiązanie przyjęte przez wynalazcę Johna Tukeya polega na systematycznym stosowaniu statystyk zamówień - danych sortowanych od najniższej do najwyższej. Dla uproszczenia (wykonał obliczenia mentalnie lub ołówkiem i papierem) Tukey skupił się na medianach : środkowych wartościach partii liczb. (W przypadku partii z parzystymi zliczeniami Tukey zastosował punkt środkowy dwóch średnich wartości.) Mediana jest odporna na zmiany nawet o połowę danych, na których jest oparta, co czyni ją doskonałą jako solidną statystykę. A zatem:

Wartość centralna jest szacowana na podstawie mediany wszystkich danych.
Rozprzestrzenianie się oszacować różnicę między środkowych „górnej połowie” - proces, równą lub powyżej mediany - i „dolna połowa” - Wszystkie dane są równe lub mniejsze niż mediana. Te dwie mediany nazywane są górnymi i dolnymi „zawiasami” lub „czwartymi”. Zwykle są one obecnie zastępowane przez rzeczy zwane kwartylami (które nie mają, niestety, uniwersalnej definicji).
Niewidoczne ogrodzenia do przesiewania wartości odstających są wznoszone 1,5 i 3-krotnie w stosunku do zawiasów (z dala od wartości centralnej).
- „Wartość na każdym końcu najbliższa, ale wciąż wewnątrz ogrodzenia wewnętrznego jest„ przylegająca ”.”
- Wartości poza pierwszym ogrodzeniem nazywane są „wartościami odstającymi”.
- Wartości za drugim płotem są „daleko”.

(Ci, którzy są na tyle starsi, by pamiętać hipisowskiego argota z lat 60., zrozumieją ten żart.)

Ponieważ rozkład jest różnicą wartości danych, ogrodzenia te mają te same jednostki miary, co dane pierwotne: w pytaniu jest to sens „odległości”.

Tukey napisał o wartościach danych do zidentyfikowania

Możemy przynajmniej zidentyfikować skrajne wartości i możemy zrobić dobrze, aby zidentyfikować kilka innych.

Każda graficzna metoda wyświetlania mediany, zawiasów i zidentyfikowanych wartości prawdopodobnie zasługuje na miano „wykresu pudełkowego” (pierwotnie „wykresu pudełkowego i wąsów”). Ogrodzenia zwykle nie są przedstawione. Projekt Tukeya składa się z prostokąta opisującego zawiasy z „talią” na środku. Nie rzucające się w oczy liniowe „wąsy” rozciągają się na zewnątrz od zawiasów do najbardziej wewnętrznych zidentyfikowanych wartości (zarówno powyżej, jak i poniżej ramki). Zazwyczaj te najbardziej wewnętrznie zidentyfikowane wartości są sąsiednimi wartościami zdefiniowanymi powyżej.

W związku z tym domyślnym wyglądem wykresu pudełkowego jest rozciągnięcie wąsów do najbardziej ekstremalnych wartości danych niepowiązanych i identyfikacja (za pomocą etykiet tekstowych) danych obejmujących końce wąsów i wszystkich wartości odstających. Na przykład wulkan Tupungatito to wysoka sąsiednia wartość dla danych wysokości wulkanu pokazana po prawej stronie rysunku: tam wąs zatrzymuje się. Tupungatito i wszystkie wyższe wulkany są oddzielnie identyfikowane.

Aby wiernie wyświetlać dane, odległość na grafice jest proporcjonalna do różnic w wartościach danych. (Każde odstępstwo od bezpośredniej proporcjonalności wprowadziłoby „Lie Factor” w terminologii Tufte'a (1983).)

Te dwa wykresy pudełkowe z książki EDA Tukeya (s. 41) ilustrują komponenty. Warto zauważyć, że zidentyfikował wartości nieprzyległe na górnych i dolnych krańcowych zestawach danych stanów po lewej stronie i jedną niską nieprzeciętną wartość wysokości wulkanów po prawej stronie. Jest to przykład wzajemnego oddziaływania reguł i osądów, które przenikają książkę.

(Możesz stwierdzić, że te zidentyfikowane dane są niepozorne, ponieważ możesz oszacować lokalizacje ogrodzeń. Na przykład zawiasy wysokości stanów wynoszą blisko 11 000 i 1 000, co daje rozpiętość około 10 000. Mnożenie przez 1,5 i 3 daje odległości 15 000 i 30 000. Zatem niewidzialny górny płot musi znajdować się w pobliżu 11 000 + 15 000 = 26 000, a dolny przy 1000 - 15 000 byłby poniżej zera. -29,000.)

Bibliografia

Tufte, Edward. Wizualne wyświetlanie informacji ilościowych. Cheshire Press, 1983.

Tukey, John. Rozdział 2, EDA . Addison-Wesley, 1977.

— Whuber
źródło