Próbuję zrozumieć optymalizację spadku gradientu w algorytmach ML (uczenie maszynowe). Rozumiem, że jest to funkcja, gdzie koszt celem jest minimalizacja błędu . W scenariuszu, w którym wagi są optymalizowane w celu uzyskania minimalnego błędu i stosowane są pochodne częściowe, czy zmienia on zarówno jak i na każdym etapie, czy też jest kombinacją (np. W kilku iteracjach zmienia się tylko i kiedy nie zmniejsza już błędu, pochodna zaczyna się od )? Aplikacja może być modelem regresji liniowej, modelem regresji logistycznej lub algorytmami wzmacniającymi.
w1
, spadek ww2
zależności od kierunku od pochodnej częściowej do osiągnięcia minimów lokalnych i tylko po to, aby potwierdzić, że algorytm niekoniecznie da globalne minima zawsze?