Dlaczego nie zawsze stosować technikę optymalizacji ADAM?


13

Wydaje się, że optymalizator Adaptive Moment Estimation (Adam) prawie zawsze działa lepiej (szybciej i bardziej niezawodnie osiąga globalne minimum) przy minimalizacji funkcji kosztów w szkoleniu sieci neuronowych.

Dlaczego nie zawsze używać Adama? Po co męczyć się przy użyciu RMSProp lub optymalizatorów pędu?


1
Nie wierzę, że istnieje jakikolwiek ścisły, sformalizowany sposób na poparcie któregokolwiek z oświadczeń. Wszystko to jest czysto empiryczne, ponieważ powierzchnia błędu jest nieznana. Zasadniczo, i wyłącznie z doświadczenia m, ADAM radzi sobie dobrze tam, gdzie inni zawodzą (segmentacja instancji), choć nie bez wad (konwergencja nie jest monotonna)
Alex

2
Adam szybciej się zbiega. SGD jest wolniejszy, ale lepiej się uogólnia. Na koniec wszystko zależy od konkretnych okoliczności.
agcala

Odpowiedzi:



5

Powinieneś także spojrzeć na ten post porównujący różne optymalizatory spadku gradientu. Jak widać poniżej, Adam najwyraźniej nie jest najlepszym optymalizatorem dla niektórych zadań, ponieważ wiele z nich lepiej się zbiera.


Dla przypomnienia: w powiązanym artykule wspominają niektóre wady ADAM i przedstawiają AMSGrad jako rozwiązanie. Stwierdzają jednak, że to, czy AMSGrad przewyższa ADAM w praktyce, nie jest (w momencie pisania) jednoznaczne.
Lus,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.