Zgadzam się, że „najlepsza” fabuła nie istnieje niezależnie od zbioru danych, czytelnictwa i celu. W przypadku dwóch mierzonych zmiennych wykresy rozrzutu są prawdopodobnie konstrukcją, która pozostawia po sobie wszystkie inne, z wyjątkiem określonych celów, ale żaden taki lider rynku nie jest widoczny w przypadku danych kategorycznych.
Moim celem jest tutaj tylko wspomnienie prostej metody, często odkrywanej lub wymyślanej na nowo, ale jednak często pomijanej nawet w monografiach lub podręcznikach obejmujących grafikę statystyczną.
Przykład pierwszy, obejmujący te same dane, które opublikował xan:
Jeśli pożądane jest imię, jak to często bywa, jest to dwuwymiarowy wykres słupkowy (w tym przypadku). Nie będę tutaj katalogować innych terminów, z wyjątkiem tego, że wiele wykresów słupkowych jest jedną z popularnych alternatyw o podobnym smaku. (Mój mały sprzeciw wobec „wielokrotnego wykresu słupkowego” jest taki, że „wielokrotność” nie wyklucza bardzo powszechnych wykresów słupkowych ułożonych w stos lub obok siebie, podczas gdy „twoway” dla mnie wyraźniej implikuje układ wierszy i kolumn, chociaż z kolei może podać przykłady, aby to wyjaśnić).
Plusy i minusy dla tego rodzaju fabuły są również proste, ale przeliteruję trochę. Ponieważ lubię ten projekt (który sięga przynajmniej lat 30. XX wieku), inni mogą chcieć dodać ostrzejszą krytykę.
+1. Pomysł jest łatwy do zrozumienia , nawet przez grupy nietechniczne. Wysokości prętów lub długości prętów kodują częstotliwości w tym przykładzie. W innych przykładach mogą kodować procenty obliczone w dowolny sposób, reszty itp.
+2 Struktura wierszy i kolumn jest zgodna ze strukturą tabeli . Możesz także dodać wartości liczbowe. Bardzo małe ilości, a nawet domniemane zera są wyraźnie widoczne, co nie zawsze ma miejsce w przypadku innych wzorów (np. Skumulowane wykresy słupkowe, wykresy mozaikowe). Etykietowanie wierszy i kolumn jest zwykle bardziej wydajne niż dodawanie klucza lub legendy, co wymaga mentalnego „w przód i w tył”. W ten sposób ten projekt hybrydyzuje pomysły na wykresy i tabele, co najwyraźniej niepokoi niektórych czytelników; przeciwnie, argumentowałbym, że wyraźne rozróżnienie między figurami a tabelami to tylko historyczne kaciki, przestarzałe, ponieważ badacze mogą przygotowywać własne dokumenty i nie muszą polegać na projektantach, kompozytorach i drukarkach.
+3. Rozszerzenia konstrukcji trójdrożnych i wyższych są w zasadzie łatwe . Umieść dwie lub więcej zmiennych jako zmienne złożone na jednej lub obu osiach lub podaj tablicę takich wykresów. Oczywiście im bardziej skomplikowany projekt, tym bardziej skomplikowana interpretacja.
+4. Projekt wyraźnie dopuszcza zmienne porządkowe na każdej osi. Porządek można wyrazić (np.) Poprzez odpowiednie zacienienie, a także porządek kategorii na tej osi. Porządek kategorii na osiach można ustalić na podstawie ich znaczenia lub lepiej na podstawie częstotliwości; kolejność alfabetyczna według etykiet tekstowych może być domyślna, ale nigdy nie powinna być jedynym rozważanym wyborem.
-1. Działając ogólnie w projekcie, fabuła może być mniej skuteczna w pokazywaniu pewnych rodzajów relacji . W szczególności mozaikowa fabuła może bardzo wyraźnie wyjaśnić odstępstwa od niepodległości. I odwrotnie, gdy relacje między zmiennymi kategorialnymi są skomplikowane lub niejasne, wówczas zazwyczaj żaden wykres nie jest dobry w ukazaniu więcej niż tego słabego faktu.
-2. Pod pewnymi względami projekt nieefektywnie wykorzystuje przestrzeń , pozostawiając miejsce dla każdej kombinacji krzyżowej, niezależnie od tego, czy i jak często. Jest to wadą tej samej zasady uważanej za cnotę. Konkretny projekt nad kategoriami przestrzeni jednakowo niezależnie od ich częstotliwości; poświęcenie, które często poświęca czytelne marginalne etykiety, które bardzo cenię. W tym przykładzie etykiety tekstowe są bardzo krótkie, ale nie jest to typowe.
Uwaga: dane Xana wyglądają na wymyślone, więc nie będę próbował interpretacji bardziej niż w przypadku innych odpowiedzi. Ale pewna mądrość domowa zasługuje na ostatnie słowo: najlepszy projekt dla ciebie to taki, który najlepiej przekazuje tobie i twoim czytelnikom strukturę niektórych prawdziwych danych, na których ci zależy.
Inne przykłady obejmują
Jak możesz wyobrazić sobie związek między 3 zmiennymi kategorycznymi?
Wykres zależności między dwiema zmiennymi porządkowymi