Wykonując EDA postanowiłem użyć wykresu pudełkowego, aby zilustrować różnicę między dwoma poziomami czynnika.
Sposób, w jaki ggplot renderował wykres pudełkowy, był zadowalający, ale nieco uproszczony (pierwszy wykres poniżej). Podczas badania właściwości wykresów pudełkowych zacząłem eksperymentować z wycięciami.
Rozumiem, że wycięcia wyświetlają CI wokół mediany i że jeśli wycięcia dwóch pól nie pokrywają się, istnieją „mocne dowody” - na poziomie ufności 95% - że mediany różnią się.
W moim przypadku (drugi wykres) wycięcia nie nakładają się znacząco. Ale dlaczego dolna część pudełka po prawej stronie przyjmuje taką dziwną formę?
Wykreślenie tych samych danych na wykresie skrzypcowym nie wskazywało na nic niezwykłego w gęstości prawdopodobieństwa odpowiednich skrzypiec.
ggplot2
. Podoba mi się również pomysł kreślenia poszczególnych punktów danych, ale jest to frustrujące, ponieważ punkty w ciemnym polu są niewidoczne.