W mojej dziedzinie zwykłym sposobem wykreślania sparowanych danych jest seria cienkich nachylonych segmentów linii, nakładających je na medianę i CI mediany dla dwóch grup:
Jednak ten rodzaj wykresu staje się znacznie trudniejszy do odczytania, ponieważ liczba punktów danych staje się bardzo duża (w moim przypadku mam rzędu 10000 par):
Zmniejszenie alfa trochę pomaga, ale wciąż nie jest świetne. Podczas poszukiwania rozwiązania natknąłem się na ten artykuł i postanowiłem spróbować zastosować „wykres równoległej linii”. Ponownie działa bardzo dobrze w przypadku niewielkiej liczby punktów danych:
Ale jeszcze trudniej jest sprawić, aby tego rodzaju fabuła wyglądała dobrze, gdy jest bardzo duży:
Przypuszczam, że mógłbym osobno pokazać rozkłady dla dwóch grup, np. Z wykresami pudełkowymi lub skrzypcami, i wykreślić linię z paskami błędów na górze pokazującymi dwie mediany / elementy CI, ale tak naprawdę nie podoba mi się ten pomysł, ponieważ nie byłby w stanie przekazać sparowany charakter danych.
Nie jestem też zbytnio zainteresowany ideą wykresu punktowego 2D: wolałbym bardziej zwartą reprezentację, a najlepiej taką, w której wartości dla dwóch grup są wykreślane wzdłuż tej samej osi. Dla kompletności oto, jak dane wyglądają jak rozproszenie 2D:
Czy ktoś wie o lepszym sposobie przedstawiania sparowanych danych z bardzo dużą próbką? Czy możesz połączyć mnie z kilkoma przykładami?
Edytować
Niestety, najwyraźniej nie wykonałem wystarczająco dobrej pracy, tłumacząc, czego szukam. Tak, wykres rozproszenia 2D działa i istnieje wiele sposobów, dzięki którym można go poprawić, aby lepiej przekazać gęstość punktów - mogłem kodować kolorami kropki zgodnie z oszacowaniem gęstości jądra, mogłem zrobić histogram 2D , Mogłem narysować kontury na kropkach itp. Itp.
Myślę jednak, że to przesada w stosunku do wiadomości, którą próbuję przekazać. I naprawdę nie obchodzi przedstawiający gęstość 2D punktów per se - wszystko muszę zrobić, to pokazać, że wartości dla „barów” są na ogół większe niż dla „kropek”, jak w prosty i przejrzysty sposób, jak to możliwe i bez utraty istotnej sparowanej natury danych. Idealnie chciałbym wykreślić sparowane wartości dla dwóch grup wzdłuż tych samych, a nie ortogonalnych osi, ponieważ ułatwia to ich wizualne porównanie.
Może nie ma lepszej opcji niż wykres rozrzutu, ale chciałbym wiedzieć, czy są jakieś alternatywy, które mogłyby zadziałać.
bar
na osi poziomej idot
pionowej jako wykres rozproszenia?