Opadanie gradientu na podstawie pędu działa więc następująco:
gdzie jest poprzednią aktualizacją masy, a g jest bieżącym gradientem w odniesieniu do parametrów p , l r jest szybkością uczenia się, a s e l f . m o m e n t u m jest stałą.
a przyspieszone opadanie gradientu Niestierowa działa w następujący sposób:
co jest równoważne z:
lub
źródło: https://github.com/fchollet/keras/blob/master/keras/optimizers.py
Wydaje mi się więc, że przyspieszone opadanie gradientu Niestierowa po prostu nadaje większą wagę warunkowi lr * g w stosunku do przepuszczalnego składnika zmiany masy m (w porównaniu do zwykłego starego pędu). Czy ta interpretacja jest poprawna?