Moje pytanie może być głupie. Więc z góry przepraszam.
Próbowałem użyć modelu GLOVE wstępnie przeszkolonego przez grupę NLP Stanforda ( link ). Zauważyłem jednak, że moje wyniki podobieństwa wykazały pewne liczby ujemne.
To natychmiast skłoniło mnie do spojrzenia na plik danych słowo-wektor. Najwyraźniej wartości w wektorach słów mogły być ujemne. To wyjaśniało, dlaczego widziałem ujemne podobieństwa cosinus.
Przyzwyczaiłem się do podobieństwa cosinusów wektorów częstotliwości, których wartości są ograniczone w [0, 1]. Wiem na pewno, że iloczyn skalarny i funkcja kosinusowa mogą być dodatnie lub ujemne, w zależności od kąta między wektorem. Ale naprawdę trudno mi zrozumieć i interpretować to negatywne podobieństwo cosinus.
Na przykład, jeśli mam parę słów dających podobieństwo -0,1, czy są one mniej podobne niż inna para, której podobieństwo wynosi 0,05? A może porównać podobieństwo od -0,9 do 0,8?
Czy powinienem po prostu spojrzeć na wartość bezwzględną minimalnej różnicy kątów od ? Bezwzględna wartość wyników?
Wielkie dzięki.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
Jedyną różnicą między nimi jest to, że w odchyleniach korelacji (momenty) - które są multiplikowane krzyżowo - pochodzą ze średniej, podczas gdy w kosinusie odchylenia są od pierwotnego 0 - tzn. Są wartościami takimi, jakie są .