Chciałbym porównać różnicę między tym samym słowem wymienionym w różnych źródłach. To jest, w jaki sposób autorzy różnią się w użyciu źle zdefiniowanych słów, takich jak „demokracja”.
Krótki plan był
- Weź książki, w których wzmianka o „demokracji” to zwykły tekst
- W każdej książki, wymienić
democracy
zdemocracy_%AuthorName%
- Trenuj
word2vec
model na tych książkach - Oblicz odległość między
democracy_AuthorA
,democracy_AuthorB
i inne relabeled wzmianki o „demokracji”
Tak więc „demokracja” każdego autora otrzymuje własny wektor, który służy do porównania.
Wygląda jednak na to, że word2vec
potrzeba dużo więcej niż kilku książek (każde słowo z etykietą występuje tylko w podzbiorze książek), aby wyszkolić niezawodne wektory. Oficjalna strona zaleca zestawów danych w tym miliardy słów.
Chciałem tylko zapytać, jak duży powinien być podzbiór książek jednego autora, aby wyciągać takie wnioski z word2vec
alternatywnych narzędzi, jeśli są dostępne?
window
parametr określa, ile słów w kontekście jest używanych do trenowania modelu dla twojego słowa w