Wymagania dotyczące hierarchicznego grupowania
Grupowanie hierarchiczne można stosować z dowolnymi miarami podobieństwa i odmienności. (Większość narzędzi oczekuje odmienności, ale pozwoli na wartości ujemne - od Ciebie zależy, czy preferowana będzie mała czy duża wartość).
Tylko metody oparte na centroidach lub wariancji (takie jak metoda Totema) są wyjątkowe i powinny być stosowane z kwadratowym euklidesem. (Aby zrozumieć dlaczego, dokładnie przestudiuj te linki).
Nie ma to większego wpływu na pojedyncze połączenie, średnie połączenie, całkowite połączenie, nadal będzie to minimalna / średnia / maksymalna różnic pomiędzy parami.
Korelacja jako miara odległości
Jeśli wstępnie przetworzysz swoje dane ( obserwacji, funkcje ) tak, że każda funkcja ma i (co uniemożliwia stałe funkcje!), Wówczas korelacja zmniejsza się do cosinusa:npμ = 0σ= 1
Corr ( X, Y) = Cov ( X, Y)σXσY= E [ ( X- μX) ( Y- μY) ]σXσY= E [ XY] = 1n⟨ X, Y⟩
W tych samych warunkach kwadratowa odległość euklidesowa zmniejsza się również do cosinusa:
re2)Euklides( X, Y) = ∑ ( Xja- Yja)2)= ∑ X2)ja+ ∑ Y2)ja- 2 ∑ XjaYja= 2 n - 2 ⟨ X, Y⟩ = 2 n [ 1 - Corr ( X, Y) ]
Dlatego, chyba że dane są zdegenerowane, użycie korelacji dla hierarchicznego klastrowania powinno być w porządku. Wystarczy go wstępnie przetworzyć, jak wyjaśniono powyżej, a następnie użyć kwadratowej odległości euklidesowej.