Jest kilka rzeczy, o których należy pamiętać.
Podobnie jak większość wewnętrznych kryteriów grupowania , Kaliński-Harabasz jest urządzeniem heurystycznym. Właściwym sposobem jego wykorzystania jest porównanie rozwiązań klastrowych uzyskanych na tych samych danych, - rozwiązań, które różnią się albo liczbą klastrów, albo zastosowaną metodą klastrowania.
Nie ma „akceptowalnej” wartości odcięcia. Po prostu porównujesz wartości CH na oko. Im wyższa wartość, tym „lepsze” jest rozwiązanie. Jeśli na wykresie liniowym wartości CH wydaje się, że jedno rozwiązanie daje szczyt lub co najmniej nagły łokieć, wybierz go. Jeśli wręcz przeciwnie, linia jest gładka - pozioma, rosnąca lub malejąca - nie ma powodu, aby preferować jedno rozwiązanie od innych.
Kryterium CH oparte jest na ideologii ANOVA. Oznacza to, że obiekty skupione znajdują się w euklidesowej przestrzeni zmiennych skali (nie porządkowych, binarnych lub nominalnych). Jeśli dane skupione nie były obiektowymi zmiennymi X, ale macierzą odmienności między obiektami, miarą różnicy powinna być (kwadrat) odległość euklidesowa (lub, co gorsza, inna odległość metryczna zbliżająca się do odległości euklidesowej według właściwości).
Kryterium CH jest najbardziej odpowiednie w przypadku, gdy klastry są mniej więcej kuliste i zwarte w środku (takie jak na przykład rozkład normalny) . Inne warunki są jednakowe, CH preferuje rozwiązania klastrowe z klastrami składającymi się z mniej więcej takiej samej liczby obiektów.1
Obserwujmy przykład. Poniżej znajduje się wykres rozrzutu danych, które zostały wygenerowane jako 5 normalnie rozmieszczonych klastrów, które leżą dość blisko siebie.
Dane te zostały pogrupowane według hierarchicznej metody średniego powiązania, a wszystkie rozwiązania klastrowe (członkostwo w klastrze) od rozwiązania 15-klastrowego do 2-klastrowego zostały zapisane. Następnie zastosowano dwa kryteria grupowania, aby porównać rozwiązania i wybrać „lepsze”, jeśli takie istnieją.
Działka dla Kalinskiego-Harabasz znajduje się po lewej stronie. Widzimy, że - w tym przykładzie - CH wyraźnie wskazuje na rozwiązanie 5-klastrowe (oznaczone CLU5_1) jako najlepsze. Po prawej stronie znajduje się wykres dla innego kryterium klastrowania, indeks C (który nie jest oparty na ideologii ANOVA i jest bardziej uniwersalny w zastosowaniu niż CH). W przypadku indeksu C niższa wartość oznacza „lepsze” rozwiązanie. Jak pokazuje fabuła, rozwiązanie 15-klastrowe jest formalnie najlepsze. Pamiętaj jednak, że w przypadku kryteriów grupowania trudna topografia jest ważniejsza przy podejmowaniu decyzji niż sama wielkość. Zauważ, że jest kolano w 5-klastrowym roztworze; Rozwiązanie 5-klastrowe jest nadal stosunkowo dobre, natomiast rozwiązania 4- lub 3-klastrowe pogarszają się skokowo. Ponieważ zwykle chcemy uzyskać „lepsze rozwiązanie z mniejszą liczbą klastrów”, wybór rozwiązania 5-klastrowego wydaje się również uzasadniony w testach C-Index.
PS W tym poście pojawia się również pytanie, czy powinniśmy bardziej ufać faktycznemu maksimum (lub minimum) kryterium grupowania, czy raczej krajobrazowi wykresu jego wartości.
1 Późniejsza notatka . Nie do końca tak, jak napisano. Moje sondy na symulowanych zestawach danych przekonują mnie, że CH nie ma preferencji co do rozkładu kształtu dzwonu w porównaniu z platykurtycznym (takim jak kula) lub do klastrów kołowych nad elipsoidalnymi, - jeśli utrzymują takie same wariancje wewnątrzklastrowe i separacja centroidów między klastrami. Należy jednak pamiętać o jednym niuansie: jeśli klastry są wymagane (jak zwykle), aby nie nakładały się na siebie w przestrzeni, to dobrą konfigurację klastra z okrągłymi klastrami łatwiej jest spotkać w praktyce jako podobnie dobrą konfigurację z podłużnymi klastrami ( efekt „ołówków w etui”); nie ma to nic wspólnego z uprzedzeniami kryterium klastrowania.
Przegląd wewnętrznych kryteriów klastrowania i sposobu ich użycia .