Wiem, że k-średnie jest zwykle optymalizowane przy użyciu Maksymalizacji oczekiwań . Jednak moglibyśmy zoptymalizować jego funkcję utraty w ten sam sposób, w jaki zoptymalizowaliśmy każdy inny!
Znalazłem kilka artykułów, które faktycznie używają stochastycznego spadku gradientu dla dużych k-średnich, ale nie mogłem uzyskać odpowiedzi na moje pytanie.
Czy ktoś wie, dlaczego tak jest? Czy to dlatego, że maksymalizacja oczekiwań zbiega się szybciej ? Czy ma jakąś szczególną gwarancję? Czy jest to powód historyczny ?