Do grupowania dokumentów (tekstowych) potrzebny jest sposób pomiaru podobieństwa między parami dokumentów.
Dwie alternatywy to:
Porównaj dokumenty jako wektory terminów za pomocą podobieństwa Cosinus - i TF / IDF jako ważenia terminów.
Porównaj rozkład prawdopodobieństwa każdego dokumentu za pomocą rozbieżności f, np. Rozbieżności Kullbacka-Leiblera
Czy jest jakiś intuicyjny powód, aby preferować jedną metodę od drugiej (zakładając średni rozmiar dokumentu wynoszący 100 terminów)?