Pozwólcie mi, nie sięgając daleko, po prostu skopiować i wkleić listę opcji z mojej własnej funkcji !kmini
(makro dla SPSS), znalezionej w kolekcji „Clustering” tutaj .
Metoda tworzenia lub wybierania początkowych centrów klastrów. Wybierać:
- RGC - centroidy losowych podpróbek . Dane są dzielone losowo według
k
nakładanie się, członkostwo, grupy i centroidy tych grup są wyznaczane jako początkowe centra. Zatem centra są obliczane, a nie wybrane z istniejących przypadków zbioru danych. Ta metoda daje centra, które leżą blisko siebie i względem ogólnego środka ciężkości danych.
- RP - losowo wybrane punkty .
k
różne przypadki danych są losowo wybierane jako początkowe centra.
- RUNFP -
najdalsze punkty (wybór bieżący). Pierwsze
k
przypadki są traktowane jako centra, a następnie podczas przeglądania pozostałych przypadków zbioru danych następuje stopniowa wymiana między centrami; celem zamiany jest uzyskanie k
punktów końcowych najbardziej oddalonych od siebie w przestrzeni zmiennej. Te punkty (przypadki) zajmujące pozycje peryferyjne w chmurze danych są wytworzonymi centrami początkowymi. (Metodę tę stosuje się jako domyślną w procedurze k-średnich SPSS QUICK CLUSTER
. Zobacz szczegóły w Algorytmach SPSS. Zobacz także opisane tutaj ).
- SIMFP - najdalsze punkty (prosty wybór). Pierwsze centrum jest wybierane jako przypadek ze zbioru danych. Drugi środek wybierany jest jako przypadek maksymalnie oddalony od tego środka. Trzecie centrum jest wybierane jako przypadek maksymalnie oddalony od tych dwóch (od najbliższego z dwóch), i tak dalej.
- KMPP - losowe najdalsze punkty lub k-znaczy ++. Pierwsze centrum jest wybierane jako przypadek ze zbioru danych. Drugi środek jest również wybierany losowo, ale prawdopodobieństwo wyboru przypadku jest proporcjonalne do odległości (kwadratowy euklidesowy) od tego (pierwszego) środka. Trzecie centrum jest również wybierane losowo, z prawdopodobieństwem wyboru proporcjonalnym do odległości sprawy do najbliższego z tych dwóch centrów - i tak dalej. (Arthur, D., Vassilvitskii, S .. K-znaczy ++: zalety ostrożnego wysiewu. // Postępy 18. dorocznego sympozjum ACM-SIAM na temat algorytmów dyskretnych. 2007., 1027–1035.)
- GREP - punkty reprezentatywne dla grupy . Pomysł metody - aby zebrać jako centra
k
najbardziej reprezentatywne, „zastępcze” sprawy. Pierwsze centrum jest traktowane jako przypadek najbliższy ogólnemu cenroidowi danych. Następnie pozostałe centra są wybierane z punktów danych w taki sposób, że każdy punkt jest rozważany pod kątem tego, czy jest on bliższy (i o ile, pod względem kwadratowej odległości euklidesowej) od zestawu punktów niż każdy z tych ostatnich jest do dowolnego z już istniejących centrów. Tj. Każdy punkt jest sprawdzany jako kandydat do reprezentowania pewnej grupy punktów, które nie są jeszcze wystarczająco dobrze reprezentowane przez już zebrane centra. Punkt najbardziej reprezentatywny pod tym względem jest wybierany jako następny środek. (Kaufman, L. Rousseeuw, PJ Znajdowanie grup w danych: wprowadzenie do analizy skupień., 1990. Zobacz także: Pena, JM i wsp. Empiryczne porównanie czterech metod inicjalizacji dla algorytmu K-średnich // Pattern Recognition Lett. 20 (10), 1999 r.,
- [Istnieje również niezła metoda, która nie została jeszcze przeze mnie zaimplementowana w makrze, do generowania
k
punktów z losowego jednolitego, ale „mniej losowego niż losowego”, gdzieś pomiędzy losowym a chciwością; zobacz potencjalne podstawy teoretyczne dla tej metody]
- Jeszcze jedną metodą jest hierarchiczne grupowanie metodą Warda. Możesz to zrobić na podpróbce obiektów, jeśli próbka jest zbyt duża. Zatem środkami
k
wytworzonych przez niego klastrów są początkowe nasiona dla procedury k-średnich. Totemy są lepsze niż inne hierarchiczne metody grupowania, ponieważ mają wspólny cel docelowy z k-średnich.
Metody RGC, RP, SIMFP, KMPP zależą od liczb losowych i mogą zmieniać swoje wyniki z jednego uruchomienia do drugiego.
Metoda RUNFP może być wrażliwa na kolejność wielkości liter w zestawie danych; ale metoda GREP nie jest (poza przypadkami, gdy w danych występuje wiele identycznych przypadków, powiązań). Metoda GREP może nie zebrać wszystkich k
centrów, jeśli k
jest duża w stosunku do liczby przypadków w data ( n
), szczególnie kiedy k>n/2
. [Makro poinformuje, czy dane nie pozwalają tej metodzie na gromadzenie k
centrów]. Metoda GREP jest najwolniejsza, oblicza [w mojej realizacji] macierz odległości między wszystkimi przypadkami, dlatego nie będzie pasować, jeśli istnieje wiele dziesiątek tysięcy lub milionów przypadków. Możesz to jednak zrobić na losowej podpróbce danych.
Nie dyskutuję obecnie, która metoda jest „lepsza” iw jakich okolicznościach, ponieważ do tej pory nie przeprowadzałem obszernego symulacyjnego sondowania tego pytania. Moje bardzo wstępne i powierzchowne wrażenia były takie, że GREP jest szczególnie godny (ale jest drogi) i że jeśli chcesz naprawdę taniej metody wciąż wystarczająco konkurencyjnej, to tylko losowe k punktów, RP, jest dobrym wyborem.