Jeśli mam określony zestaw danych, jak mądre byłoby inicjowanie centrów klastrowych przy użyciu losowych próbek tego zestawu danych?
Załóżmy na przykład, że chcę 5 clusters
. Przyjmuję, 5 random samples
powiedzmy, size=20%
oryginalny zestaw danych. Czy mogę wziąć średnią z każdej z 5 losowych próbek i użyć tych środków jako moich 5 początkowych centrów skupień? Nie wiem, gdzie to przeczytałem, ale chciałem wiedzieć, co myślicie o tym pomyśle.
AKTUALIZACJA: Zobacz ten wątek Inicjalizacja K-oznacza grupowanie: jakie są istniejące metody? do ogólnej dyskusji na temat różnych metod inicjalizacji.