Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)


11

W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247).

Kwadratowe przybliżenie funkcji kosztu j daje:

J^(θ)=J(w)+12(ww)TH(ww)

H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Odpowiedzi:


15

Mówią o optymalnych wagach:

Możemy modelować funkcję kosztu z kwadratowym przybliżeniem w sąsiedztwie empirycznie optymalnej wartości wagJw

W tym momencie pierwsza pochodna wynosi zero - środkowy człon jest zatem pominięty.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.