Niedawno przeczytałem cztery książki z tego zakresu:
Feldman, R. i James Sanger, J. (2006). Podręcznik Text Mining: zaawansowane podejścia do analizy danych nieustrukturyzowanych. Cambridge University Press.
Ten koncentruje się na praktycznych przykładach, oprogramowaniu i stosowanym eksploracji tekstu. Daje wiele przykładów praktycznego wykorzystania eksploracji tekstu. Może to być interesujące, jeśli chcesz przeczytać o komercyjnych zastosowaniach narzędzi do eksploracji tekstu.
Srivastava, AN i Sahami, M. (2009). Text Mining: klasyfikacja, grupowanie i aplikacje. Chapman & Hall / CRC.
Jest to seria prac badawczych, które są wykorzystywane jako przykłady użycia różnych narzędzi do eksploracji tekstu. Jest raczej zbyt skoncentrowany jak na test wprowadzający.
Weiss, SM, Indurkhya, N., Zhang, T. and Damerau, F. (2005). Text Mining: prognostyczne metody analizy nieustrukturyzowanych informacji.
Skoczek.
Bardzo wprowadzający tekst opisujący niektóre ogólne problemy.
Manning, C. (1999). Podstawy statystycznego przetwarzania języka naturalnego. MIT Naciśnij.
To najlepsza książka, którą już przeczytałem na ten temat. Jest dobrze napisane, jasne, wnika głębiej w teorię, ale w sposób przyjazny dla praktyki. Zaczyna się od ogólnego wprowadzenia, ale od przeglądu niektórych najczęściej używanych metod i algorytmów. Jeśli musiałbyś wybrać tylko jedną książkę, poleciłbym tę.
Możesz również łatwo znaleźć wiele książek na temat przetwarzania języka naturalnego i eksploracji tekstu, które koncentrują się na użyciu R ( biblioteka tm ) lub Python ( biblioteka nltk ).