Jak interpretować wycięte wykresy pudełkowe

Wykonując EDA postanowiłem użyć wykresu pudełkowego, aby zilustrować różnicę między dwoma poziomami czynnika.

Sposób, w jaki ggplot renderował wykres pudełkowy, był zadowalający, ale nieco uproszczony (pierwszy wykres poniżej). Podczas badania właściwości wykresów pudełkowych zacząłem eksperymentować z wycięciami.

Rozumiem, że wycięcia wyświetlają CI wokół mediany i że jeśli wycięcia dwóch pól nie pokrywają się, istnieją „mocne dowody” - na poziomie ufności 95% - że mediany różnią się.

W moim przypadku (drugi wykres) wycięcia nie nakładają się znacząco. Ale dlaczego dolna część pudełka po prawej stronie przyjmuje taką dziwną formę?

Wykreślenie tych samych danych na wykresie skrzypcowym nie wskazywało na nic niezwykłego w gęstości prawdopodobieństwa odpowiednich skrzypiec.

Ryc. 1

Ryc. 2 ząbkowany wykres pudełkowy

data-visualization ggplot2 eda

— RDJ
źródło

W kodzie ggplot powinieneś użyć fill = współczynnik (am), ponieważ obecnie am jest używany jako zmienna liczbowa.

— rnso

To świetne miejsce @rnso

— RDJ

Czy ktoś może opublikować oryginalne dane? Sądzę, że pochodzą ze standardowej piaskownicy ggplot2. Podoba mi się również pomysł kreślenia poszczególnych punktów danych, ale jest to frustrujące, ponieważ punkty w ciemnym polu są niewidoczne.

— Nick Cox

W moim przypadku (drugi wykres) wycięcia nie nakładają się znacząco. Ale dlaczego dolna część pudełka po prawej stronie przyjmuje taką dziwną formę? Jak to wyjaśnić?

Wskazuje, że 25 percentyl wynosi około 21, 75 percentyl około 30,5. A dolna i górna granica wycięcia wynosi około 18 i 27.

Częstym powodem jest zniekształcenie dystrybucji lub niska wielkość próbki. Granica wycięcia jest oparta na:

$median \pm 1.57 \times \frac{IQR}{\sqrt{n}}$

Jeśli odległość między medianą a 25. percentylem oraz odległość między medianą a 75. percentylem są bardzo różne (jak ta po prawej) i / lub wielkość próbki jest niska, wycięcie będzie szersze. Jeśli jest wystarczająco szeroki, aby granica wycięcia była bardziej ekstremalna niż 25. i 75 percentyl (aka, pole), wówczas wykres z wyciętymi ramkami wyświetli ten „wywrócony” kształt.

— Penguin_Knight
źródło

Bardzo dziękuję za szczegółowe wyjaśnienie. Pozwól, że zapytam, dlaczego dolna i górna granica wycięcia wynosi około 17 i 24, a nie około 18 i 27 (na prawym wykresie pudełkowym)?

— Denis

@Denis, dzięki za złapanie tego. Poprawiłem to.

— Penguin_Knight