Czytałem, że algorytm k-średnich jest zbieżny tylko z lokalnym minimum, a nie globalnym minimum. Dlaczego to? Mogę logicznie myśleć o tym, w jaki sposób inicjalizacja mogłaby wpłynąć na końcowe grupowanie i istnieje możliwość nieoptymalnego grupowania, ale nie znalazłem niczego, co matematycznie to udowodni.
Ponadto, dlaczego k-oznacza proces iteracyjny? Czy nie możemy po prostu częściowo rozróżnić funkcji celu wrt na centroidy, zrównując ją do zera, aby znaleźć centroidy, które minimalizują tę funkcję? Dlaczego musimy używać opadania gradientu, aby krok po kroku osiągnąć minimum?