Jak określić optymalną szybkość uczenia się dla spadku gradientu? Myślę, że mógłbym to automatycznie dostosować, jeśli funkcja kosztu zwróci większą wartość niż w poprzedniej iteracji (algorytm się nie zbiegnie), ale nie jestem pewien, jaką nową wartość powinna przyjąć.