Dane ze świata rzeczywistego czasami mają naturalną liczbę klastrów (próba klastrowania ich w liczbę klastrów mniejszą niż jakaś magiczna k spowoduje drastyczny wzrost kosztu klastrowania). Dzisiaj uczestniczyłem w wykładzie dr Adama Meyersona, który nazwał tego typu danymi „danymi możliwymi do oddzielenia”.
Jakie są inne formalizacje klastrowania, inne niż K-średnie, które mogą być podatne na algorytmy klastrowania (aproksymacje lub heurystyka), które wykorzystywałyby naturalną separowalność w danych?