Czy podczas aktualizacji wag sieci neuronowej za pomocą algorytmu propagacji wsteczne z terminem pędu należy zastosować szybkość uczenia się również do terminu pędu?
Większość informacji, które mogłem znaleźć na temat używania pędu, ma równania wyglądające mniej więcej tak:
gdzie to współczynnik uczenia się, oraz jest pojęciem pędu.
jeśli termin jest większy niż określenie to w następnej iteracji z poprzedniej iteracji będzie miał większy wpływ na wagę niż bieżąca.
Czy taki jest cel terminu pędu? czy równanie powinno wyglądać bardziej tak?
to znaczy. skalowanie wszystkiego według wskaźnika uczenia się?