Ponieważ używasz gensim, prawdopodobnie powinieneś użyć jego implementacji doc2vec. doc2vec jest rozszerzeniem word2vec na poziomie frazy, zdania i dokumentu. To całkiem proste rozszerzenie, opisane tutaj
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim jest fajny, ponieważ jest intuicyjny, szybki i elastyczny. Wspaniałe jest to, że możesz pobrać wstępnie wytrenowane osadzenia słów z oficjalnej strony word2vec, a warstwa syn0 modelu Doc2Vec gensim jest odsłonięta, dzięki czemu możesz wysiewać osadzanie słów za pomocą tych wysokiej jakości wektorów!
GoogleNews-vectors-negative300.bin.gz (zgodnie z linkiem w Google Code )
Myślę, że gensim jest zdecydowanie najłatwiejszym (i jak dotąd dla mnie najlepszym) narzędziem do osadzania zdania w przestrzeni wektorowej.
Istnieją inne techniki zamiany zdania na wektor niż ta zaproponowana w powyższej pracy Le & Mikolov. Socher i Manning ze Stanford to z pewnością dwaj najbardziej znani badacze pracujący w tej dziedzinie. Ich praca została oparta na zasadzie kompozycyjności - semantyka zdania pochodzi z:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Zaproponowali kilka takich modeli (coraz bardziej złożonych), jak używać kompozycyjności do budowania reprezentacji na poziomie zdań.
2011 - rozwijanie rekurencyjnego autoenkodera (bardzo stosunkowo proste. Jeśli jesteś zainteresowany, zacznij tutaj)
2012 - sieć neuronowa macierzowo-wektorowa
2013 - neuronowa sieć tensorowa
2015 - Drzewo LSTM
wszystkie jego artykuły są dostępne na socher.org. Niektóre z tych modeli są dostępne, ale nadal polecam doc2vec firmy Gensim. Po pierwsze, URAE 2011 nie jest szczególnie potężny. Ponadto jest wstępnie wytrenowany z wagami dostosowanymi do parafrazowania danych news-y. Dostarczony przez niego kod nie pozwala na przekwalifikowanie sieci. Nie możesz również zamieniać się różnymi wektorami słów, więc utkniesz z osadzeniami pre-word2vec 2011 z Turian. Te wektory z pewnością nie są na poziomie word2vec czy GloVe.
Jeszcze nie współpracowałem z Tree LSTM, ale wydaje się bardzo obiecujący!
tl; dr Tak, użyj doc2vec gensima. Ale istnieją inne metody!