[Uwaga 5 kwietnia 2019 r .: Nowa wersja artykułu została zaktualizowana na arXiv z wieloma nowymi wynikami. Wprowadzamy również wersje Momentum i NAG w zakresie cofania i udowadniamy zbieżność przy takich samych założeniach, jak w przypadku gradientu zejścia wstecznego.
Kody źródłowe są dostępne w GitHub pod linkiem: https://github.com/hank-nguyen/MBT-optimizer
Ulepszyliśmy algorytmy aplikowania do DNN i uzyskaliśmy lepszą wydajność niż najnowocześniejsze algorytmy, takie jak MMT, NAG, Adam, Adamax, Adagrad, ...
Najbardziej wyjątkową cechą naszych algorytmów jest to, że są one automatyczne, nie ma potrzeby ręcznego dostrajania wskaźników uczenia się jako powszechnej praktyki. Nasze automatyczne dostrajanie ma inny charakter niż Adam, Adamax, Adagrad, ... i tak dalej. Więcej szczegółów znajduje się w artykule.
]
Na podstawie bardzo najnowszych wyników: W mojej wspólnej pracy w tym dokumencie https://arxiv.org/abs/1808.05160
f
W związku z powyższym zaproponowaliśmy nową metodę głębokiego uczenia się, która jest na równi z obecnymi najnowocześniejszymi metodami i nie wymaga ręcznego dostrajania wskaźników uczenia się. ( Krótko mówiąc , chodzi o to, że przez pewien czas uruchamiasz gradient gradientu wstecznego, aż zobaczysz, że wskaźniki uczenia się, które zmieniają się z każdą iteracją, stabilizują się. Spodziewamy się tej stabilizacji, w szczególności w krytycznym punkcie, który jest C ^ 2 i nie jest zdegenerowany, ze względu na wynik konwergencji, o którym wspomniałem powyżej. W tym momencie przełączasz się na standardową metodę opadania gradientu. Zobacz cytowany artykuł, aby uzyskać więcej szczegółów. Metodę tę można również zastosować do innych optymalnych algorytmów .)
PS Jeśli chodzi o twoje oryginalne pytanie o standardową metodę zejścia gradientowego, o ile wiem, tylko w przypadku, gdy pochodną mapy jest globalnie Lipschitz, a szybkość uczenia się jest na tyle mała, że udowodniono, że standardowa metoda zejścia gradientowego jest zbieżna. [Jeśli te warunki nie są spełnione, istnieją proste kontrprzykłady pokazujące, że żaden wynik zbieżności nie jest możliwy, patrz cytowany artykuł dla niektórych.] W artykule cytowanym powyżej argumentowaliśmy, że na dłuższą metę metoda opadania gradientu wstecznego stanie się standardowa metoda opadania gradientu, która wyjaśnia, dlaczego standardowa metoda opadania gradientu zwykle działa dobrze w praktyce.