Regularyzacja: dlaczego pomnożyć przez 1/2 metra?

10

W notatkach z 3 wykładów z kursu Coursera Machine Learning Andrew Ng do funkcji kosztów dodawany jest termin w celu wdrożenia regularyzacji:

J^{+} (θ) = J (θ) + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}

$J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2$

Notatki z wykładu mówią:

Możemy również uregulować wszystkie nasze parametry theta w jednym podsumowaniu:

$m i n_{θ} \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]$ $min_\theta\ \dfrac{1}{2m}\ \left[ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum_{j=1}^n \theta_j^2 \right]$

$\frac 1 {2m}$ stosuje się później do terminu regularyzacji sieci neuronowych :

Przypomnijmy, że funkcja kosztu regulowanej regresji logistycznej wynosiła:

$J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))] + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$ $J(\theta) = - \frac{1}{m} \sum_{i=1}^m [ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ \log (1 - h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2$
W przypadku sieci neuronowych będzie to nieco bardziej skomplikowane:
$\begin{matrix} J (Θ) = - \frac{1}{m} \sum_{i = 1}^{m} \sum_{k = 1}^{K} [y_{k}^{(i)} \log ((h_{Θ} (x^{(i)}))_{k}) + (1 - y_{k}^{(i)}) \log (1 - (h_{Θ} (x^{(i)}))_{k})] + \frac{λ}{2 m} \sum_{l = 1}^{L - 1} \sum_{i = 1}^{s_{l}} \sum_{j = 1}^{s_{l + 1}} (Θ_{j, i}^{(l)})^{2} \end{matrix}$ $\begin{gather*} J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \left[y^{(i)}_k \log ((h_\Theta (x^{(i)}))_k) + (1 - y^{(i)}_k)\log (1 - (h_\Theta(x^{(i)}))_k)\right] + \frac{\lambda}{2m}\sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} ( \Theta_{j,i}^{(l)})^2\end{gather*}$

Dlaczego używana jest tutaj stała połowa? Czyli jest on anulowany w pochodnej ? $J'$
Dlaczego podział według przykładów szkoleniowych? Jak ilość przykładów treningu wpływa na różne rzeczy? $m$

regularization

— Tom Hale
źródło

czy jesteś pewien, że 1 / m jest na regularyzacji, a nie na J (theta) AFAIK @DikranMarsupial przyjmuje takie założenie ...... czy też sam J (theta) ma termin 1 / m?

— seanv507

To założenie jest niepoprawne - stosuje się zarówno do funkcji kosztów nieregulowanych, jak i terminu regularyzacji. Zaktualizowałem pytanie, aby podać pełne formuły.

\frac{1}{2 m}

$1 \over 2m$

— Tom Hale,

5

Załóżmy, że masz 10 przykładów i nie dzielisz kosztów regularyzacji L2 przez liczbę przykładów m . Wtedy „dominacja” kosztu regularyzacji L2 w porównaniu z kosztem entropii krzyżowej wyniesie 10: 1, ponieważ każdy przykład szkolenia może przyczynić się do całkowitego kosztu proporcjonalnie do 1 / m = 1/10.

Jeśli masz więcej przykładów, powiedzmy 100, wówczas „dominacja” kosztu regularyzacji L2 będzie wynosić około 100: 1, więc musisz odpowiednio zmniejszyć λ , co jest niewygodne. Lepiej mieć stałą λ niezależnie od wielkości partii.

Aktualizacja: Aby wzmocnić ten argument, stworzyłem notatnik jupyter .

— grez
źródło

1

Hmm, ale czy nie jest celem współczynnika 1 / m przed funkcją kosztu, że każdy przykład szkolenia w równym stopniu przyczynia się do kosztu? Ponieważ już uśredniamy poszczególne koszty, nie powinno to być przyczyną dominacji terminu L2. Widzę jednak z twojej wielkiej symulacji, że współczynnik 1 / m również przed terminem L2 pomaga. Po prostu nie mam za tym intuicji (jeszcze).

— Milania

Dlaczego jest to niewygodne? łatwo jest podzielić koszt L2 przez liczbę próbek. Myślę, że może sformułowałeś to w niewłaściwy sposób. Myślę, że chciałeś powiedzieć, że niewygodne jest ręczne skalowanie kosztu L2 za każdym razem, lepiej podzielić przez liczbę próbek w ramach wzoru, aby skalować je automatycznie.

— SpaceMonkey

6

Funkcja utraty na zestawie treningowym $J(\theta)$ jest ogólnie sumą wzorców składających się z zestawu treningowego, więc gdy zestaw treningowy staje się większy, pierwszy termin skaluje się zasadniczo liniowo z $m$ . Możemy zawęzić zakres wyszukiwania dla dobrej wartości $\lambda$ całkiem sporo, jeśli najpierw podzielimy termin regularyzacji $m$ aby zrównoważyć zależność $J(\theta)$ na $m$ . Oczywiście 2 znajduje się w mianowniku, aby uprościć pochodne potrzebne do algorytmu optymalizacyjnego zastosowanego do określenia optymalnego $\theta$ .

— Dikran Torbacz
źródło

Dziękujemy za wyjaśnienie nieregularnego skalowania kosztów za pomocą

m

$m$ . Nadal nie rozumiem, jak się dzielę

m

$m$ pomoże singielowi

λ

$\lambda$ wartość działa lepiej przy bardzo różnych wartościach

m

$m$ . Nieregulowany koszt jest już silnie uzależniony

m

$m$ , więc po co dbać o termin regularyzacji, od którego zależy

n

$n$ parametry, a nie

m

$m$ przykłady? Czy to dlatego, że przy większej liczbie przykładów treningu wariancja zmniejszy się, biorąc pod uwagę tę samą liczbę parametrów?

— Tom Hale

Funkcja straty w pytaniu jest średnią we wszystkich przykładach (tzn. Jest dzielona przez m), a nie sumą, więc tak naprawdę nie rozumiem, jak działa ta odpowiedź.

— Denziloe

@Denziloe stosuje się to również do terminu regularyzacji.

— Dikran Torbacz

2

Zastanawiałem się nad dokładnie tą samą rzeczą, biorąc udział w tym kursie, i ostatecznie trochę to zbadałem. Dam ci krótką odpowiedź tutaj, ale możesz przeczytać bardziej szczegółowy przegląd w poście na blogu, który o tym napisałem .

Uważam, że przynajmniej częściowo powodem tych współczynników skalowania jest to, że regularyzacja L² prawdopodobnie weszła w dziedzinę głębokiego uczenia się poprzez wprowadzenie powiązanej, ale nie identycznej koncepcji spadku masy ciała.

Współczynnik 0,5 jest wtedy dostępny, aby uzyskać ładny współczynnik tylko λ dla rozkładu masy w gradiencie, a skalowanie według m ... cóż, istnieje co najmniej 5 różnych motywacji, które znalazłem lub wymyśliłem:

Efekt uboczny opadania gradientu wsadowego: gdy zamiast tego sformalizowana jest pojedyncza iteracja opadania gradientu w całym zestawie treningowym, w wyniku czego algorytm nazywany jest czasami spadkiem gradientu okresowego, współczynnik skalowania 1 / m, wprowadzany w celu uczynienia funkcji kosztu porównywalnym w zestawach danych o różnych rozmiarach jest automatycznie stosowany do terminu zaniku masy.
Przeskaluj do wagi jednego przykładu: Zobacz interesującą intuicję Greza.
Reprezentatywność zestawu treningowego: Rozsądne jest zmniejszanie regularyzacji wraz ze wzrostem rozmiaru zestawu treningowego, ponieważ statystycznie rośnie również jego reprezentatywność dla ogólnego rozkładu. Zasadniczo im więcej mamy danych, tym mniej jest potrzeby regularyzacji.
Zapewnianie porównywalności λ: miejmy nadzieję, że ograniczając potrzebę zmiany λ, gdy zmienia się m, to skalowanie sprawia, że sam λ jest porównywalny w różnych zestawach danych o różnych rozmiarach. To sprawia, że λ jest bardziej reprezentatywnym estymatorem faktycznego stopnia regularyzacji wymaganego przez określony model konkretnego problemu uczenia się.
Wartość empiryczna: wspaniały notebook grezpokazuje, że poprawia to wydajność w praktyce.

— ShayPal5
źródło

0

Byłem również zdezorientowany, ale potem w wykładzie dla deeplearning.ai Andrew sugeruje, że jest to tylko stała skalowania:

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

Być może istnieje głębszy powód używania 1/2 m, ale podejrzewam, że jest to po prostu hiperparametr.

— Keyan P.
źródło

To nie odpowiada na pytanie.

— Michael R. Chernick