Spędziłem trzy dni, bawiąc się tm
po przeczytaniu dokumentu roboczego przez znajomego, w którym zbadał korpus tekstowy za pomocą UCINET, pokazując chmury tekstowe, dwumodowe wykresy sieciowe i rozkład pojedynczej wartości (z grafiką, przy użyciu Staty). Wystąpiło wiele problemów: w systemie Mac OS X występują problemy z Javą za bibliotekami takimi jak Snowball (tworzenie) lub Rgraphviz (wykresy).
Może ktoś punkt się nie pakiety - Mam spojrzał na tm
, wordfish
i wordscores
, i wiedzą o NLTK - ale badania, jeśli jest to możliwe z kodem, na danych tekstowych, które z powodzeniem używa tm
lub coś innego do analizy danych takich debat parlamentarnych lub dokumentów prawnych? Nie mogę znaleźć dużo na ten temat, a jeszcze mniej kodu do nauki.
Mój własny projekt to dwumiesięczna debata parlamentarna z tymi zmiennymi zawartymi w pliku CSV: sesja parlamentarna, mówca, grupa parlamentarna, tekst ustnej interwencji. Szukam rozbieżności między mówcami, a zwłaszcza między grupami parlamentarnymi, w stosowaniu rzadkich i mniej rzadkich terminów, np. „Rozmowa w sprawie bezpieczeństwa” przeciwko rozmowie o „wolnościach obywatelskich”.