Mam trudności z wyborem właściwego sposobu wizualizacji danych. Załóżmy, że mamy księgarnie, które sprzedają książki , a każda książka ma co najmniej jedną kategorię .
W przypadku księgarni, jeśli policzymy wszystkie kategorie książek, uzyskamy histogram pokazujący liczbę książek należących do określonej kategorii dla tej księgarni.
Chcę wyobrazić sobie zachowanie księgarni, chcę sprawdzić, czy faworyzują kategorię nad innymi kategoriami. Nie chcę wiedzieć, czy wszyscy razem faworyzują science fiction, ale chcę sprawdzić, czy traktują każdą kategorię jednakowo.
Mam ~ 1 mln księgarń.
Myślałem o 4 metodach:
Próbkuj dane, pokaż tylko 500 histogramów księgarni. Pokaż je na 5 osobnych stronach za pomocą siatki 10x10. Przykład siatki 4x4:
Taki sam jak nr 1. Ale tym razem posortuj wartości osi x według ich liczby zliczeń, więc jeśli pojawi się faworyzowanie, będzie to łatwo widoczne.
Wyobraź sobie składanie histogramów w # 2 razem jak talię i pokazywanie ich w 3D. Coś takiego:
Zamiast używać koloru próbnego trzeciej osi do reprezentowania kolorów, więc użyj mapy termicznej (histogram 2D):
jeśli ogólnie księgarnie wolą niektóre kategorie od innych, będą wyświetlane jako ładny gradient od lewej do prawej.
Czy masz jakieś inne pomysły / narzędzia wizualizacji do reprezentowania wielu histogramów?