Ale nie wiem, jaka jest różnica między klasyfikacją tekstu a modelami tematów w dokumentach
Text Classification
jest formą nadzorowanego uczenia się, dlatego zbiór możliwych klas jest znany / definiowany z góry i nie ulega zmianie.
Topic Modeling
jest formą uczenia się bez nadzoru (podobnego do grupowania), więc zestaw możliwych tematów jest nieznany apriori . Są one zdefiniowane w ramach generowania modeli tematów. Z niedeterministycznym algorytmem, takim jak LDA, będziesz otrzymywać różne tematy za każdym razem, gdy uruchomisz algorytm.
Text classification
często obejmuje wzajemnie wykluczające się klasy - pomyśl o nich jak o wiadrach.
Ale nie musi: biorąc pod uwagę odpowiedni rodzaj danych wejściowych opatrzonych etykietą, można ustawić serię nie wykluczających się wzajemnie klasyfikatorów binarnych.
Topic modeling
zasadniczo nie wyklucza się wzajemnie: ten sam dokument może mieć rozkład prawdopodobieństwa rozłożony na wiele tematów. Ponadto istnieją również hierarchiczne metody modelowania tematów.
Czy mogę również użyć modelu tematu do dokumentów, aby później zidentyfikować jeden temat. Czy mogę użyć klasyfikacji do klasyfikacji tekstu w tych dokumentach?
Jeśli pytasz, czy możesz wziąć wszystkie dokumenty przypisane do jednego tematu przez algorytm modelowania tematów, a następnie zastosować klasyfikator do tej kolekcji, to tak, na pewno możesz to zrobić.
Nie jestem jednak pewien, czy ma to sens: przynajmniej musisz ustalić próg rozkładu prawdopodobieństwa tematu, powyżej którego będziesz uwzględniać dokumenty w swojej kolekcji (zwykle 0,05-0,1).
Czy możesz rozwinąć swój przypadek użycia?
Nawiasem mówiąc, jest tu świetny samouczek na temat modelowania tematów za pomocą biblioteki MALLET dla Javy: Pierwsze kroki z modelowaniem tematów i MALLETEM