Tak, bardzo często używa się obu lew. Rozwiązują różne problemy i mogą dobrze ze sobą współpracować.
Jednym ze sposobów myślenia o tym jest to, że rozpad masy zmienia optymalizowaną funkcję , a pęd zmienia optymalną ścieżkę .
Zmniejszenie masy poprzez zmniejszenie współczynników do zera, zapewnia znalezienie lokalnego optimum z parametrami małej wielkości. Jest to zwykle kluczowe dla uniknięcia przeuczenia (chociaż mogą również działać inne ograniczenia na wadze). Dodatkową korzyścią może być również łatwiejsza optymalizacja modelu, poprzez zwiększenie wypukłości funkcji celu.
Kiedy będziesz już mieć funkcję celu, musisz zdecydować, jak się po niej poruszać. Najtrudniejsze zejście na gradient jest najprostszym podejściem, ale masz rację, że fluktuacje mogą być dużym problemem. Dodanie rozpędu pomaga rozwiązać ten problem. Jeśli pracujesz z aktualizacjami wsadowymi (co zwykle jest złym pomysłem w przypadku sieci neuronowych), kroki typu Newtona są inną opcją. Nowe „gorące” podejścia oparte są na przyspieszonym gradiencie Niestierowa i tak zwanej optymalizacji „bez Hesji”.
Ale niezależnie od tego, której z tych zasad aktualizacji używasz (pędu, Newtona itp.), Nadal pracujesz z tą samą funkcją celu, która jest określona przez twoją funkcję błędu (np. Błąd kwadratu) i inne ograniczenia (np. Spadek masy) . Głównym pytaniem przy podejmowaniu decyzji, który z nich użyć, jest to, jak szybko uzyskasz dobry zestaw wag.