Sieci neuronowe: pęd zmiany masy i spadek masy ciała

Momentum służy do zmniejszenia wahań zmian masy w kolejnych iteracjach: $\alpha$

gdziejest funkcją błędu,- wektor wag,- szybkość uczenia się.

Δ ω_{i} (t + 1) = - η \frac{\partial E}{\partial w_{i}} + α Δ ω_{i} (t),

$\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),$

E (w)

$E({\bf w})$

w

${\bf w}$

η

$\eta$

Rozpad masy karze zmiany masy: $\lambda$

Δ ω_{i} (t + 1) = - η \frac{\partial E}{\partial w_{i}} - λ η ω_{i}

$\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i$

Pytanie brzmi, czy sensowne jest połączenie obu lew podczas propagacji wstecznej i jaki miałby to efekt?

Δ ω_{i} (t + 1) = - η \frac{\partial E}{\partial w_{i}} + α Δ ω_{i} (t) - λ η ω_{i}

$\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i$

— Oleg Shirokikh
źródło

Czy chcesz powiedzieć ωi (t + 1) = ωi - η ∂E / ∂wi + αΔωi (t), zamiast Δωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t)?

— hakunamatata

Tak, bardzo często używa się obu lew. Rozwiązują różne problemy i mogą dobrze ze sobą współpracować.

Jednym ze sposobów myślenia o tym jest to, że rozpad masy zmienia optymalizowaną funkcję , a pęd zmienia optymalną ścieżkę .

Zmniejszenie masy poprzez zmniejszenie współczynników do zera, zapewnia znalezienie lokalnego optimum z parametrami małej wielkości. Jest to zwykle kluczowe dla uniknięcia przeuczenia (chociaż mogą również działać inne ograniczenia na wadze). Dodatkową korzyścią może być również łatwiejsza optymalizacja modelu, poprzez zwiększenie wypukłości funkcji celu.

Kiedy będziesz już mieć funkcję celu, musisz zdecydować, jak się po niej poruszać. Najtrudniejsze zejście na gradient jest najprostszym podejściem, ale masz rację, że fluktuacje mogą być dużym problemem. Dodanie rozpędu pomaga rozwiązać ten problem. Jeśli pracujesz z aktualizacjami wsadowymi (co zwykle jest złym pomysłem w przypadku sieci neuronowych), kroki typu Newtona są inną opcją. Nowe „gorące” podejścia oparte są na przyspieszonym gradiencie Niestierowa i tak zwanej optymalizacji „bez Hesji”.

Ale niezależnie od tego, której z tych zasad aktualizacji używasz (pędu, Newtona itp.), Nadal pracujesz z tą samą funkcją celu, która jest określona przez twoją funkcję błędu (np. Błąd kwadratu) i inne ograniczenia (np. Spadek masy) . Głównym pytaniem przy podejmowaniu decyzji, który z nich użyć, jest to, jak szybko uzyskasz dobry zestaw wag.

— David J. Harris
źródło

„może także ułatwić optymalizację modelu, czyniąc funkcję celu bardziej wypukłą” - czy możesz wyjaśnić, w jaki sposób umożliwiają to mniejsze ciężary?

— Alex

s i n (x)

$\mathrm{sin}(x)$

a x^{2}

$a x^2$

a

$a$

Dobra odpowiedź, dziękuję. Co z Adamem Optimizerem? Czy działa lepiej niż połączenie rozpadu masy i pędu?

— A. Piro,

Adam jest jak pęd, ale nie jak rozpad masy; wpływa na sposób poruszania się po funkcji celu, ale nie na samą funkcję celu.

— David J. Harris,