Kilka miesięcy temu wziąłem kurs Andrew Machine na „Machine Learning” przez Coursera, nie zwracając uwagi na większość matematyki / pochodnych i skupiając się na implementacji i praktyczności. Od tego czasu zacząłem wracać, aby studiować niektóre z podstawowych teorii i ponownie zapoznałem się z niektórymi wykładami prof. Ng. Czytałem przez jego wykład na temat „Regularnej regresji liniowej” i zobaczyłem, że dał on następującą funkcję kosztów:
Następnie podaje następujący gradient dla tej funkcji kosztu:
Jestem trochę zdezorientowany tym, jak on przechodzi od jednego do drugiego. Kiedy próbowałem wykonać własną pochodną, otrzymałem następujący wynik:
Różnica polega na znaku „plus” między pierwotną funkcją kosztu a parametrem regularyzacji we wzorze prof. Ng zmieniającym się w znak „minus” w jego funkcji gradientu, podczas gdy tak się nie dzieje w moim wyniku.
Intuicyjnie rozumiem, dlaczego jest on ujemny: zmniejszamy parametr theta o wartość gradientu i chcemy, aby parametr regularyzacji zmniejszał ilość zmienianego parametru, aby uniknąć przeregulowania. Trochę utknąłem na rachunku różniczkowym, który popiera tę intuicję.
Do zobaczenia tutaj talię na slajdach 15 i 16.