W notatkach z 3 wykładów z kursu Coursera Machine Learning Andrew Ng do funkcji kosztów dodawany jest termin w celu wdrożenia regularyzacji:
Notatki z wykładu mówią:
Możemy również uregulować wszystkie nasze parametry theta w jednym podsumowaniu:
stosuje się później do terminu regularyzacji sieci neuronowych :
Przypomnijmy, że funkcja kosztu regulowanej regresji logistycznej wynosiła:
W przypadku sieci neuronowych będzie to nieco bardziej skomplikowane:
- Dlaczego używana jest tutaj stała połowa? Czyli jest on anulowany w pochodnej ?
- Dlaczego podział według przykładów szkoleniowych? Jak ilość przykładów treningu wpływa na różne rzeczy?