Przybliżenie drugiego rzędu funkcji utraty (książka do głębokiego uczenia się, 7.33)

W książce Goodfellow (2016) na temat głębokiego uczenia się mówił o równoważności wczesnego zaprzestania regularyzacji L2 ( https://www.deeplearningbook.org/contents/regularization.html strona 247).

Kwadratowe przybliżenie funkcji kosztu $j$ daje:

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

$H$

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

neural-networks deep-learning loss-functions derivative

— Stevew
źródło

Odpowiedzi:

Mówią o optymalnych wagach:

Możemy modelować funkcję kosztu z kwadratowym przybliżeniem w sąsiedztwie empirycznie optymalnej wartości wag $J$ $w^∗$

W tym momencie pierwsza pochodna wynosi zero - środkowy człon jest zatem pominięty.

— Jan Kukacka
źródło