Jaki jest odpowiedni wykres ilustrujący związek między dwiema zmiennymi porządkowymi?
Kilka opcji, o których mogę myśleć:
- Wykres rozproszenia z dodanym drganiami losowymi, aby zatrzymać ukrywanie się punktów. Niby standardowa grafika - Minitab nazywa to „wykresem wartości indywidualnych”. Moim zdaniem może to być mylące, ponieważ wizualnie zachęca do pewnego rodzaju interpolacji liniowej między poziomami porządkowymi, tak jakby dane pochodziły ze skali interwałowej.
- Wykres rozproszenia dostosowany w taki sposób, że rozmiar (obszar) punktu reprezentuje częstotliwość tej kombinacji poziomów, zamiast rysować jeden punkt dla każdej jednostki próbkowania. Od czasu do czasu widziałem takie wątki w praktyce. Mogą być trudne do odczytania, ale punkty leżą na regularnie rozmieszczonej sieci, która nieco przezwycięża krytykę roztrzęsionego wykresu rozrzutu, że wizualnie „interweniuje” dane.
- W szczególności, jeśli jedną ze zmiennych traktuje się jako zależną, wykres ramkowy pogrupowany według poziomów zmiennej niezależnej. Prawdopodobnie wygląda okropnie, jeśli liczba poziomów zmiennej zależnej nie jest wystarczająco wysoka (bardzo „płaska” z brakującymi wąsami lub jeszcze gorszymi zapadniętymi kwartylami, co uniemożliwia wizualną identyfikację mediany), ale przynajmniej zwraca uwagę na medianę i kwartyle, które są odpowiednie statystyki opisowe dla zmiennej porządkowej.
- Tabela wartości lub pusta siatka komórek z mapą cieplną wskazującą częstotliwość. Wizualnie inny, ale koncepcyjnie podobny do wykresu punktowego z obszarem punktowym pokazującym częstotliwość.
Czy są inne pomysły lub przemyślenia, które wątki są lepsze? Czy są jakieś dziedziny badań, w których pewne wykresy porządkowe kontra porządkowe są uważane za standardowe? (Wydaje mi się, że przypominam mapę termiczną częstotliwości, która jest szeroko rozpowszechniona w genomice, ale podejrzewam, że częściej dotyczy ona wartości nominalnej vs. nominalnej.) Sugestie dotyczące dobrego standardowego odniesienia również byłyby bardzo mile widziane, zgaduję coś z Agresti.
Jeśli ktoś chce zilustrować za pomocą wykresu, następuje kod R dla fałszywych danych przykładowych.
„Jak ważne jest dla ciebie ćwiczenie?” 1 = wcale nie ważne, 2 = nieco nieważne, 3 = ani ważne, ani nieważne, 4 = dość ważne, 5 = bardzo ważne.
„Jak regularnie bierzesz 10 minut lub dłużej?” 1 = nigdy, 2 = rzadziej niż raz na dwa tygodnie, 3 = raz na jeden lub dwa tygodnie, 4 = dwa lub trzy razy w tygodniu, 5 = cztery lub więcej razy w tygodniu.
Jeśli byłoby naturalne traktować „często” jako zmienną zależną, a „ważność” jako zmienną niezależną, jeśli wykres rozróżnia między nimi.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Powiązane pytanie dotyczące zmiennych ciągłych było dla mnie pomocne, a może przydatny punkt wyjścia: jakie są alternatywy dla wykresów rozrzutu podczas badania związku między dwiema zmiennymi numerycznymi?