k
Dla ułatwienia wyjaśnień i jasności zainicjowałbym klastrowanie.
Ogólnie rzecz biorąc, możesz użyć takich ponownie próbkowanych klastrów, aby zmierzyć stabilność swojego rozwiązania: czy w ogóle się nie zmienia, czy całkowicie się zmienia?
Nawet jeśli nie masz podstawowej prawdy, możesz oczywiście porównać klastrowanie wynikające z różnych przebiegów tej samej metody (ponowne próbkowanie) lub wyniki różnych algorytmów klastrowania, np. Poprzez zestawienie:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
ponieważ klastry są nominalne, ich kolejność może się zmieniać dowolnie. Ale to oznacza, że możesz zmienić kolejność, aby klastry odpowiadały. Następnie elementy ukośne * liczą przypadki przypisane do tego samego klastra, a elementy nie przekątne pokazują, w jaki sposób zmieniły się przypisania:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Powiedziałbym, że ponowne próbkowanie jest dobre, aby ustalić, jak stabilne jest twoje grupowanie w ramach każdej metody. Bez tego porównywanie wyników z innymi metodami nie ma większego sensu.
i,i
Nie łączysz walidacji krzyżowej k-fold z klastrowaniem k-średnich, prawda?