Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Deep Learning autorstwa Bengio, Goodfellow i Courville:
Adam jest ogólnie uważany za dość odpornego na wybór hiper parametrów, chociaż szybkość uczenia się czasami trzeba zmienić w stosunku do sugerowanego domyślnego.
jeśli to prawda, jest to wielka sprawa, ponieważ wyszukiwanie hiperparametrów może być naprawdę ważne (przynajmniej z mojego doświadczenia) w statystycznej wydajności systemu głębokiego uczenia się. Zatem moje pytanie brzmi: dlaczego Adam Robust spełnia tak ważne parametry? Specjalnie i ?
Przeczytałem artykuł Adama i nie wyjaśnia on, dlaczego działa z tymi parametrami ani dlaczego jest niezawodny. Czy uzasadniają to gdzie indziej?
Ponadto, gdy czytam artykuł, wydaje się, że liczba hiper parametrów, które wypróbowali, była bardzo mała, dla tylko 2 i dla tylko 3. Jak to może być dokładne badanie empiryczne, jeśli działa tylko na hiperparametrach 2x3 ?