Czy podobieństwo cosinus jest identyczne z odległością euklidesową znormalizowaną przez l2?

Identyczne ten sposób, że spowoduje to identyczne wyniki dla podobieństwa kolejności pomiędzy wektorem u i zestaw wektorów V .

Mam model przestrzeni wektorowej, który ma parametry pomiaru odległości (odległość euklidesowa, podobieństwo cosinusa) i techniki normalizacji (brak, l1, l2) jako parametrów. Z mojego zrozumienia, wyniki z ustawień [cosinus, none] powinny być identyczne lub przynajmniej naprawdę bardzo podobne do [euclidean, l2], ale nie są.

Istnieje duża szansa, że system jest nadal wadliwy - czy mam coś bardzo złego w wektorach?

edycja: Zapomniałem wspomnieć, że wektory oparte są na liczbie słów z dokumentów w korpusie. Biorąc pod uwagę dokument zapytania (który również przekształcam w wektor liczenia słów), chcę znaleźć dokument z mojego korpusu, który jest do niego najbardziej podobny.

Samo obliczenie odległości euklidesowej jest prostą miarą, ale w rodzaju zadania, nad którym pracuję, podobieństwo kosinusowe jest często preferowane jako wskaźnik podobieństwa, ponieważ wektory o różnej długości są nadal uważane za równe. Dokument o najmniejszym podobieństwie odległości / cosinusa jest uważany za najbardziej podobny.

— Arne
źródło

Wszystko zależy od tego, co twój „model przestrzeni wektorowej” robi z tymi odległościami. Czy możesz być bardziej szczegółowy na temat tego, co robi model?

— whuber

Przepraszam, czasem trudno mi się wydostać z głowy. Dodałem specyfikację.

— Arne,

Nadal nie opisujesz żadnego modelu. W rzeczywistości jedyną wskazówką, którą pozostawiłeś na temat „rodzaju zadania, nad którym pracujesz”, jest tag nlp - ale jest on tak szeroki, że niewiele pomaga. Mam nadzieję, że uda ci się dostarczyć, aby ludzie mogli zrozumieć pytanie i udzielić dobrych odpowiedzi, to wystarczająca informacja, aby móc dokładnie określić, w jaki sposób korzystasz z miary odległości i jak określa ona „wyniki”.

— whuber

stats.stackexchange.com/a/36158/3277 . Każde podobieństwo kątowe typu sscp jest przekształcalne na odpowiadającą mu odległość euklidesową.

— ttnphns

Odpowiedzi:

$\ell^2$ $\mathbf{x}, \mathbf{y}$

| | x | |_{2} = | | y | |_{2} = 1,

$||\mathbf{x}||_2 = ||\mathbf{y}||_2 = 1,$

\begin{aligned} | | x - y | |_{2}^{2} & = (x - y)^{⊤} (x - y) \\ = x^{⊤} x - 2 x^{⊤} y + y^{⊤} y \\ = 2 - 2 x^{⊤} y \\ = 2 - 2 \cos ∠ (x, y) \end{aligned}

$\begin{align} ||\mathbf{x} - \mathbf{y}||_2^2 &= (\mathbf{x} - \mathbf{y})^\top (\mathbf{x} - \mathbf{y}) \\ &= \mathbf{x}^\top \mathbf{x} - 2 \mathbf{x}^\top \mathbf{y} + \mathbf{y}^\top \mathbf{y} \\ &= 2 - 2\mathbf{x}^\top \mathbf{y} \\ &= 2 - 2 \cos\angle(\mathbf{x}, \mathbf{y}) \end{align}$

— Lucas
źródło

Czy miałoby to wpływ na ranking? Oznacza to, że jeśli posortuję liczbę wektorów „v_i w V” według ich odległości cosinusowej do wektora „u”, otrzymam dla nich określoną kolejność. Czy uszeregowanie tych samych wektorów ze znormalizowaną odległością euklidesową l_2 dałoby tę samą kolejność?

— Arne,

iirc, ponieważ kwadratowanie jest transformacją monotyczną (dla liczb dodatnich), nie może zmienić kolejności sekwencji posortowanej według długości.

— Arne,

u

$\mathbf{u}$

Dziękujemy, czy zdarza ci się mieć źródło cytowane dla tego połączenia?

— Arne,

No cóż, chyba wystarczy „Linear Alebra I”;) jeszcze raz dziękuję za wgląd!

— Arne,

$\mathbf{u}$ $\mathbf{v}$

\cos (u, v) = \frac{⟨ u, v ⟩}{‖ u ‖ \cdot ‖ v ‖} = \frac{u^{T} v}{‖ u ‖ \cdot ‖ v ‖} \in [- 1, 1] .

$\cos(\mathbf{u}, \mathbf{v}) = \frac{\langle \mathbf{u}, \mathbf{v} \rangle}{\|\mathbf{u}\| \cdot \|\mathbf{v}\|} = \frac{\mathbf{u}^T\mathbf{v}}{\|\mathbf{u}\| \cdot \|\mathbf{v}\|} \in [-1, 1].$

— Marc Claesen
źródło