Próbuję zrozumieć optymalizację spadku gradientu w algorytmach ML (uczenie maszynowe). Rozumiem, że jest to funkcja, gdzie koszt celem jest minimalizacja błędu . W scenariuszu, w którym wagi są optymalizowane w celu uzyskania minimalnego błędu i stosowane są pochodne częściowe, czy zmienia on zarówno jak i na każdym etapie, czy też jest kombinacją (np. W kilku iteracjach zmienia się tylko i kiedy nie zmniejsza już błędu, pochodna zaczyna się od )? Aplikacja może być modelem regresji liniowej, modelem regresji logistycznej lub algorytmami wzmacniającymi.
w1, spadek ww2zależności od kierunku od pochodnej częściowej do osiągnięcia minimów lokalnych i tylko po to, aby potwierdzić, że algorytm niekoniecznie da globalne minima zawsze?