Pytania otagowane jako adam

6
Optymalizator Adama z rozkładem wykładniczym
W większości kodów Tensorflow widziałem, że Adam Optimizer jest używany ze stałą szybkością uczenia się 1e-4(tj. 0,0001). Kod zwykle wygląda następująco: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

1
Jak działa metoda Adama stochastycznego spadku gradientu?
Jestem zaznajomiony z podstawowymi algorytmami spadku gradientu do szkolenia sieci neuronowych. Czytałem artykuł proponujący Adam: ADAM: METODA OPTYMALIZACJI STOCHASTYCZNEJ . Chociaż zdecydowanie mam pewne spostrzeżenia (przynajmniej), papier wydaje się być dla mnie ogólnie za wysoki. Na przykład funkcja kosztu jest często sumą wielu różnych funkcji, dlatego w celu zoptymalizowania jej …

3
Jaki jest powód, dla którego Adam Optimizer jest uważany za odporny na wartość swoich hiper parametrów?
Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Deep Learning autorstwa Bengio, Goodfellow i Courville: Adam jest ogólnie uważany za dość odpornego na wybór hiper parametrów, chociaż szybkość uczenia się czasami trzeba zmienić w stosunku do sugerowanego domyślnego. jeśli to prawda, …


1
Dlaczego ważne jest uwzględnienie terminu korekty odchylenia dla optymalizatora Adama w przypadku głębokiego uczenia się?
Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Głębokie uczenie się autorstwa Begnio, Goodfellow i Courtville: Adam wprowadza korekty błędu wstępnego w szacunkach zarówno momentów pierwszego rzędu (okres pędu), jak i (niecentrowanych) momentów drugiego rzędu, aby uwzględnić ich inicjalizację u źródła. …

1
RMSProp i Adam vs SGD
Przeprowadzam eksperymenty na zestawie walidacyjnym EMNIST przy użyciu sieci z RMSProp, Adamem i SGD. Osiągam 87% dokładności dzięki SGD (współczynnik uczenia się 0,1) i porzucaniu (0,1 porzuceniu prob), a także regularyzacji L2 (kara 1e-05). Podczas testowania tej samej dokładnej konfiguracji z RMSProp i Adamem, a także początkowej szybkości uczenia się …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.