Chcę zaprojektować system, który po akapicie tekstu będzie mógł go skategoryzować i zidentyfikować kontekst:
- Jest szkolony z akapitów tekstowych generowanych przez użytkowników (takich jak komentarze / pytania / odpowiedzi)
- Każdy element w zestawie treningowym zostanie oznaczony. Więc na przykład („kategoria 1”, „tekst akapit”)
- Będą setki kategorii
Jakie byłoby najlepsze podejście do budowy takiego systemu? Patrzyłem na kilka różnych opcji, a poniżej znajduje się lista możliwych rozwiązań. Czy Word2Vec / NN jest obecnie najlepszym rozwiązaniem?
- Sieć rekurencyjnej sieci neuronowej Tensor zasilana uśrednionymi danymi Word2Vec
- RNTN i wektor akapitowy ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF używany w sieci Deep Belief Network
- TF-IDF i regresja logistyczna
- Worek słów i klasyfikacja Naive Bayes