Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k. Jaka jest jego najlepsza wartość? Co rozumiemy przez najlepsze ?
Używam MATLAB-a do obliczeń naukowych, gdzie patrząc na wykresy sylwetki podano jako sposób na decyzję o omawianej tutaj k . Byłbym jednak bardziej zainteresowany podejściami bayesowskimi. Wszelkie sugestie są mile widziane.