Celem K-Meansa jest zmniejszenie wariancji wewnątrz gromady, a ponieważ oblicza ona centroidy jako średni punkt gromady, konieczne jest użycie odległości euklidesowej , aby właściwie zbiegać się. Dlatego jeśli chcesz bezwzględnie używać K-Means, musisz upewnić się, że Twoje dane dobrze z nim współpracują.
Reprezentacja
K-Means i ogólnie klastrowanie próbuje podzielić dane na znaczące grupy, upewniając się, że instancje w tych samych klastrach są do siebie podobne. Dlatego potrzebujesz dobrego sposobu na przedstawienie swoich danych, abyś mógł łatwo obliczyć znaczącą miarę podobieństwa.
Używanie kodowania typu „hot” na zmiennych kategorialnych jest dobrym pomysłem, gdy kategorie są w równej odległości od siebie. Na przykład, jeśli masz kolor jasnoniebieski, ciemnoniebieski i żółty, użycie kodowania „na gorąco” może nie dać najlepszych rezultatów, ponieważ ciemnoniebieski i jasnoniebieski są prawdopodobnie „bliżej” niż do żółtego.
W przypadku, gdy wartość kategoryczna nie jest „w równej odległości” i można ją zamówić, można również nadać kategoriom wartość liczbową. Na przykład dziecko, nastolatek, dorosły może potencjalnie być reprezentowane jako 0, 1 i 2. To miałoby sens, ponieważ nastolatek jest „bliższy” byciu dzieckiem niż dorosły.
K-Medoidy
Bardziej ogólne podejście do K-średnich to K-Medoidy. K-Medoidy działają podobnie jak K-średnie, ale główna różnica polega na tym, że środek ciężkości każdej gromady jest zdefiniowany jako punkt, który zmniejsza sumę odległości wewnątrz gromady. Egzekwowanie tego pozwala na użycie dowolnej miary odległości, a zatem możesz zbudować własną miarę, która będzie uwzględniać, które kategorie powinny być zbliżone, czy nie.