Obecnie pracuję nad implementacją Stochastic Gradient Descent, SGD
dla sieci neuronowych wykorzystujących propagację wsteczną i choć rozumiem jej cel, mam kilka pytań na temat wyboru wartości szybkości uczenia się.
- Czy szybkość uczenia się jest związana z kształtem gradientu błędu, ponieważ dyktuje on tempo opadania?
- Jeśli tak, w jaki sposób wykorzystujesz te informacje, aby poinformować swoją decyzję o wartości?
- Jeśli nie, jakie wartości powinienem wybrać i jak je wybrać?
- Wygląda na to, że chciałbyś, aby małe wartości unikały przekroczenia, ale jak wybrać taką, aby nie utknąć w lokalnych minimach lub nie trzeba długo schodzić?
- Czy sensowne jest utrzymywanie stałej szybkości uczenia się, czy też powinienem zastosować jakieś dane, aby zmienić jego wartość, gdy zbliżam się do minimum w gradiencie?
W skrócie: Jak wybrać współczynnik uczenia się dla SGD?