Jaccard Podobieństwo podaje
sij=pp+q+r
gdzie,
p = liczba atrybutów dodatnia dla obu obiektów
q = liczba atrybutów 1 dla i i 0 dla j
r = liczba atrybutów 0 dla i i 1 dla j
Natomiast podobieństwo kosinusowe = A⋅B∥A∥∥B∥ gdzie A i B są wektorami obiektów.
Mówiąc prosto, w podobieństwie do kosinusa, liczba wspólnych atrybutów jest dzielona przez całkowitą liczbę możliwych atrybutów. Natomiast w podobieństwie Jaccard liczba wspólnych atrybutów jest dzielona przez liczbę atrybutów, które istnieją w co najmniej jednym z dwóch obiektów.
I istnieje wiele innych miar podobieństwa, z których każda ma swoje dziwactwa. Przy podejmowaniu decyzji, którego użyć, spróbuj pomyśleć o kilku reprezentatywnych przypadkach i ustal, który indeks dałby najbardziej użyteczne wyniki dla osiągnięcia twojego celu.
Indeks Cosinus może być użyty do zidentyfikowania plagiatu, ale nie będzie dobrym indeksem do identyfikacji stron lustrzanych w Internecie. Podczas gdy indeks Jaccard będzie dobrym indeksem do identyfikacji witryn lustrzanych, ale nie będzie tak świetny w łapaniu plagiatów makaronów (w większym dokumencie).
Stosując te wskaźniki, musisz dokładnie przemyśleć swój problem i wymyślić, jak zdefiniować podobieństwo. Kiedy masz już na myśli definicję, możesz zacząć kupować indeks.
Edycja:
Wcześniej w odpowiedzi znalazłem przykład, który był ostatecznie niepoprawny. Dzięki kilku użytkownikom, którzy to zauważyli, usunąłem błędny przykład.