Wybór odpowiedniej odległości nie jest podstawowym zadaniem. Gdy chcemy przeprowadzić analizę skupień na zbiorze danych, różne wyniki mogą pojawić się przy różnych odległościach, więc bardzo ważne jest, aby uważać, w jakiej odległości wybrać, ponieważ możemy stworzyć fałszywie dobry artefakt, który dobrze uchwyci zmienność, ale w rzeczywistości bez sens w naszym problemie.
Euklidesowa odległość jest odpowiednia, gdy mam ciągłych zmiennych liczbowych i chcę, aby odzwierciedlić bezwzględne odległości. Odległość ta uwzględnia każdą zmienną i nie usuwa redundancji, więc gdybym miał trzy zmienne, które wyjaśniają to samo (są skorelowane), przypisałbym ten efekt trzem. Co więcej, odległość ta nie jest niezmienna w skali, więc ogólnie muszę skalować wcześniej, aby użyć odległości.
Przykładowa ekologia: Mamy różne obserwacje z wielu miejsc, z których eksperci pobrali próbki niektórych czynników mikrobiologicznych, fizycznych i chemicznych. Chcemy znaleźć wzorce w ekosystemach. Czynniki te mają wysoką korelację, ale wiemy, że każdy jest istotny, więc nie chcemy usuwać tych zwolnień. Używamy odległości euklidesowej ze skalowanymi danymi, aby uniknąć efektu jednostek.
Mahalanobisa odległość jest odpowiednia, gdy mam ciągłych zmiennych liczbowych i chcę, aby odzwierciedlić bezwzględne odległości, ale chcemy usunąć zwolnień. Jeśli powtórzymy zmienne, ich powtarzalny efekt zniknie.
Rodzina Hellinger , profil gatunku i odległość cięciwy są odpowiednie, gdy chcemy położyć nacisk na różnice między zmiennymi, gdy chcemy różnicować profile. Odległości te są wagami według całkowitych wielkości każdej obserwacji, w taki sposób, że odległości są małe, gdy zmienne po zmiennej osobniki są bardziej podobne, chociaż w absolutnych wielkościach były bardzo różne. Uważaj! Odległości te bardzo dobrze odzwierciedlają różnicę między profilami, ale straciły efekt wielkości. Mogą być bardzo przydatne, gdy mamy różne rozmiary próbek.
Przykładowa ekologia: Chcemy badać faunę wielu ziem i mamy matrycę danych spisu ślimaka (miejsca pobierania próbek w rzędach i nazwy gatunków w kolumnach). Matryca charakteryzuje się wieloma zerami i różnymi wielkościami, ponieważ niektóre miejscowości mają niektóre gatunki, a inne inne. Przydałby się dystans Hellingera.
Bray-Curtis jest dość podobny, ale jest bardziej odpowiedni, gdy chcemy zróżnicować profile, a także wziąć pod uwagę względne wielkości.