Czy po szkoleniu wektorów słów za pomocą word2vec lepiej je znormalizować przed użyciem ich w niektórych aplikacjach? Tzn. Jakie są zalety / wady ich normalizacji?
Czy po szkoleniu wektorów słów za pomocą word2vec lepiej je znormalizować przed użyciem ich w niektórych aplikacjach? Tzn. Jakie są zalety / wady ich normalizacji?
Odpowiedzi:
Gdy dalsze aplikacje troszczą się tylko o kierunek wektorów słów (np. Zwracają uwagę tylko na podobieństwo cosinusów dwóch słów), następnie normalizują się i zapominają o długości.
Jeśli jednak dalsze aplikacje mogą (lub muszą) rozważyć bardziej sensowne aspekty, takie jak znaczenie słowa lub spójność użycia słowa (patrz poniżej), normalizacja może nie być dobrym pomysłem.
Z Levy i in., 2015 (i właściwie większość literatury na temat osadzania słów):
Wektory są znormalizowane do długości jednostkowej, zanim zostaną użyte do obliczenia podobieństwa, dzięki czemu podobieństwo cosinus i iloczyn iloczynu będą równoważne.
Również z Wilsona i Schakela, 2015 :
Większość zastosowań osadzania słów nie bada samych wektorów słów, ale relacje między nimi w celu rozwiązania, na przykład, podobieństwa i zadań związanych z relacjami słów. W przypadku tych zadań stwierdzono, że użycie znormalizowanych wektorów słów poprawia wydajność. Długość wektora słowa jest zatem zwykle ignorowana.
Normalizacja jest równoznaczna z utratą pojęcia długości. Oznacza to, że gdy znormalizujesz wektory słów, zapominasz o ich długości (norma, moduł) tuż po fazie treningu.
Jednak czasami warto wziąć pod uwagę oryginalną długość wektorów słownych.
Schakel i Wilson, 2015 zaobserwowali kilka interesujących faktów dotyczących długości wektorów słów:
Słowo, które jest konsekwentnie używane w podobnym kontekście, będzie reprezentowane przez dłuższy wektor niż słowo o tej samej częstotliwości, które jest używane w różnych kontekstach.
Nie tylko kierunek, ale także długość wektorów słów niesie ważną informację.
Długość wektora słowa zapewnia, w połączeniu z częstotliwością terminów, użyteczną miarę znaczenia słowa.