Różnica między neuronowym zanikiem masy netto a szybkością uczenia się

W kontekście sieci neuronowych, jaka jest różnica między współczynnikiem uczenia się a spadkiem masy ciała?

neural-networks terminology

— Ryan Zotti
źródło

Odpowiedzi:

161

Szybkość uczenia się jest parametrem, który określa, jak bardzo krok aktualizacji wpływa na aktualną wartość wag. Podczas gdy zanik masy jest dodatkowym terminem w regule aktualizacji ciężaru, który powoduje, że wagi spadają wykładniczo do zera, jeśli żadna inna aktualizacja nie jest zaplanowana.

Powiedzmy, że mamy funkcję kosztu lub błędu , którą chcemy zminimalizować. Gradient descent mówi nam o zmianie ciężarów w kierunku najbardziej stromego zejścia w : gdzie jest wskaźnikiem uczenia się, a jeśli jest duży, będziesz mieć odpowiednio dużą modyfikację wag (ogólnie nie powinno być zbyt duże, w przeciwnym razie przekroczysz lokalne minimum w funkcji kosztów). $E(\mathbf{w})$ $\mathbf{w}$ $E$

w_{i} \leftarrow w_{i} - η \frac{\partial E}{\partial w_{i}},

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}, \end{equation}$

η

$\eta$

w_{i}

$w_i$

Aby skutecznie ograniczyć liczbę bezpłatnych parametrów w modelu, aby uniknąć nadmiernego dopasowania, możliwe jest uregulowanie funkcji kosztów. Łatwym sposobem na to jest wprowadzenie poprzedzającego wagi średniej zero Gaussa, co jest równoważne zmianie funkcji kosztu na . W praktyce powoduje to karanie dużych ciężarów i skutecznie ogranicza swobodę w modelu. Parametr regularyzacji określa sposób wymiany pierwotnego kosztu za pomocą kary za duże ciężary. $\widetilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\mathbf{w}^2$ $\lambda$ $E$

Stosując opadanie gradientu do tej nowej funkcji kosztu, otrzymujemy: Nowy termin pochodzący z regularyzacji powoduje rozkład masy w stosunku do jej wielkości.

w_{i} \leftarrow w_{i} - η \frac{\partial E}{\partial w_{i}} - η λ w_{i} .

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}-\eta\lambda w_i. \end{equation}$

- η λ w_{i}

$-\eta\lambda w_i$

— mrig
źródło

Dzięki za przydatne wyjaśnienie. Pytanie: w pakiecie R „nnet” znajduje się parametr wykorzystywany w szkoleniu sieci neuronowej zwany „rozpadem”. Czy wiesz, czy rozpad odpowiada twojej lambda lub eta * lambda?

— Andrea Ianni ௫

Dodałbym również, że zanik masy ciała jest tym samym, co regularyzacja L2 dla tych, którzy znają to drugie.

— Siergiej

@Sergei proszę nie, przestań rozpowszechniać tę dezinformację! Dotyczy to tylko bardzo szczególnego przypadku waniliowego SGD. Zobacz rozkład ciężaru ustalającego dla papieru Adam .

— LucasB

Aby wyjaśnić: w momencie pisania, dokumentacja PyTorcha dla Adama używa terminu „rozpad masy ciała” (nawiasowo nazywany „karą L2”) w odniesieniu do tego, co według mnie autorzy nazywają regulacją L2. Jeśli dobrze rozumiem, ta odpowiedź odnosi się do SGD bez pędu, gdzie oba są równoważne.

— Dylan F

Oprócz odpowiedzi @ mrig (+1), dla wielu praktycznych zastosowań sieci neuronowych lepiej jest użyć bardziej zaawansowanego algorytmu optymalizacji, takiego jak Levenberg-Marquardt (sieci małe i średnie) lub skalowane opadanie gradientu sprzężonego (średnio duże sieci), ponieważ będą one znacznie szybsze i nie ma potrzeby ustawiania szybkości uczenia się (oba algorytmy zasadniczo dostosowują szybkość uczenia się za pomocą krzywizny i gradientu). Każdy przyzwoity pakiet sieci neuronowej lub biblioteka będzie miała implementacje jednej z tych metod, każdy pakiet, który nie jest prawdopodobnie przestarzały. Używam biblioteki NETLAB dla MATLAB, która jest świetnym zestawem.

— Dikran Torbacz
źródło

Co z algorytmami optymalizacji opartymi na Rprop? Jak się układają?

— moc

Myślę, że większość ludzi używa wariantów pędu rprop +, takich jak RMSProp, adagrad, SGD + pęd nesterowa. Zobacz klasę cs231 .

— facuq

Oczywiście zależy to od zastosowania. Ale w przypadku dużych zestawów danych / sieci, które są teraz trochę modne, myślę, że ludzie znajdują algorytmy, o których wspomniałem, bardziej odpowiednie.

— facuq

@DikranMarsupial może tak być, ponieważ obecnie (prawie pięć lat po twojej odpowiedzi) ludzie używają Adama zamiast tego?

— ComputerScientist

Rzeczywiście ta odpowiedź jest bardzo nieaktualna. Algorytmy te nie są praktyczne z typową obecnie skalą modeli i zestawów danych, a najczęściej używanym pakietom, które z pewnością nie są przestarzałe, brakuje tych algorytmów.

— LucasB

I proste terminy:

learning_rate: Kontroluje, jak szybko lub powoli model sieci neuronowej uczy się problemu.

ref: https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/

wight_decay: Jest to technika regularyzacji stosowana w celu uniknięcia nadmiernego dopasowania.

ref: https://metacademy.org/graphs/concepts/weight_decay_neural_networks

— Ketan Vishwakarma
źródło