Niedawno przeczytałem artykuł Yanna Dauphina i in. Identyfikowanie i atakowanie problemu punktu siodłowego w wielowymiarowej nie wypukłej optymalizacji , w której wprowadzono interesujący algorytm opadania o nazwie Saddle-Free Newton , który wydaje się być dokładnie dostosowany do optymalizacji sieci neuronowej i nie powinien cierpieć z powodu utknięcia w punktach siodłowych jak metody pierwszego rzędu jak waniliowy SGD.
Artykuł pochodzi z 2014 roku, więc nie jest niczym nowym, jednak nie widziałem, aby był używany „na wolności”. Dlaczego ta metoda nie jest używana? Czy obliczenia Hesji są zbyt wygórowane dla rzeczywistych problemów / sieci? Czy istnieje jakaś implementacja tego algorytmu typu open source, która może być używana z niektórymi głównymi platformami do głębokiego uczenia się?
Aktualizacja lutego 2019: dostępna jest teraz implementacja: https://github.com/dave-fernandes/SaddleFreeOptimizer )