Wydaje się, że optymalizator Adaptive Moment Estimation (Adam) prawie zawsze działa lepiej (szybciej i bardziej niezawodnie osiąga globalne minimum) przy minimalizacji funkcji kosztów w szkoleniu sieci neuronowych.
Dlaczego nie zawsze używać Adama? Po co męczyć się przy użyciu RMSProp lub optymalizatorów pędu?