Zastanawiam się, jak oznaczyć (tagować) zdania / akapity / dokumenty za pomocą doc2vec w gensim - z praktycznego punktu widzenia.
Czy musisz mieć każde zdanie / akapit / dokument z własną unikalną etykietą (np. „Wysłane_123”)? Wydaje się to przydatne, jeśli chcesz powiedzieć „jakie słowa lub zdania są najbardziej podobne do pojedynczego konkretnego zdania oznaczonego„ Wysłane_123 ”.
Czy możesz powtarzać etykiety na podstawie zawartości? Na przykład jeśli każde zdanie / akapit / dokument dotyczy określonego produktu (a dla danego produktu istnieje wiele zdań / akapitów / dokumentów), możesz oznaczyć zdania na podstawie tego produktu, a następnie obliczyć podobieństwo między słowem lub słowem zdanie i ta etykieta (które, jak sądzę, byłyby średnią wszystkich zdań, które miały związek z produktem)?