Próbuję wizualnie porównać, w jaki sposób trzy różne publikacje informacyjne obejmują różne tematy (określone na podstawie modelu tematycznego LDA). Mam dwie podobne metody, ale otrzymałem wiele opinii od kolegów, że nie jest to zbyt intuicyjne. Mam nadzieję, że ktoś ma lepszy pomysł na wizualizację tego.
Na pierwszym wykresie pokazuję proporcje każdego tematu w każdej publikacji:
Jest to dość proste i intuicyjne dla prawie wszystkich, z którymi rozmawiałem. Trudno jednak dostrzec różnice między publikacjami. Która gazeta omawia więcej tematów?
Aby to osiągnąć, przedstawiłem różnicę między publikacją o najwyższym i drugim najwyższym odsetku tematów, pokolorowaną przez publikację o najwyższym. Lubię to:
Tak więc, na przykład, ogromny pasek dla piłki nożnej jest naprawdę odległością między al-Ahram English i Daily News Egypt (# 2 w relacji piłkarskiej), i ma kolor czerwony, ponieważ Al-Ahram jest numerem 1. Podobnie, próby są zielone, ponieważ Egypt Independent ma najwyższy odsetek, a rozmiar paska to odległość między Egypt Independent a Daily News Egypt (ponownie # 2).
Fakt, że muszę wyjaśnić, że wszystko w dwóch akapitach jest dość pewnym znakiem, że wykres nie przejdzie testu samowystarczalności. Trudno powiedzieć, co się naprawdę dzieje, patrząc na to.
Jakieś ogólne sugestie dotyczące wizualnego podkreślenia dominującej publikacji dla każdego tematu w bardziej intuicyjny sposób?
Edycja: Dane do odtwarzania: Oto dput
dane wyjściowe z R , a także plik CSV .
Edycja 2: Oto wstępna wersja wykresu punktowego, której średnice kropek są proporcjonalne do proporcji tematu w korpusie (tak pierwotnie sortowano tematy). Chociaż wciąż muszę go trochę poprawiać, wydaje się bardziej intuicyjny niż to, co robiłem wcześniej. Dziękuję wszystkim!