W implementacji Word2Vec znajduje się iter
parametrgensim
klasa gensim.models.word2vec.Word2Vec (zdania = brak, rozmiar = 100, alfa = 0,025, okno = 5, liczba_minimalna = 5, max_vocab_size = brak, próbka = 0, seed = 1, pracownicy = 1, min_alpha = 0,0001, sg = 1, hs = 1, ujemny = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = None, sorted_vocab = 1)
która określa liczbę epok, tj .:
iter = liczba iteracji (epok) nad ciałem.
Czy ktoś wie, czy to pomaga w ulepszeniu modelu nad ciałem?
Czy jest jakiś powód, dla którego iter
domyślnie jest ustawiona wartość 1? Czy zwiększenie efektu „nie” ma niewielki wpływ? epok?
Czy jest jakaś naukowa / empiryczna ocena tego, jak ustawić „nie”? epok?
W przeciwieństwie do zadania klasyfikacji / regresji metoda przeszukiwania siatki tak naprawdę nie działałaby, ponieważ wektory są generowane w sposób nienadzorowany, a funkcją celu jest po prostu hierarchiczny softmax lub próbkowanie ujemne.
Czy istnieje mechanizm wczesnego zatrzymywania, aby skrócić „nie”? epok, gdy wektory zbiegają się? I czy hierarchiczny softmax lub negatywne próbkowanie może się zbiegać?