Dlaczego termin regularyzacji * jest dodawany * do funkcji kosztu (zamiast pomnożonego itp.)?

51

Ilekroć stosuje się regularyzację, jest ona często dodawana do funkcji kosztu, na przykład w poniższej funkcji kosztu. Ma to dla mnie intuicyjny sens, ponieważ minimalizuję funkcja kosztu oznacza minimalizację błędu (lewy element) i minimalizację wielkości współczynników (prawy element) w tym samym czasie (lub przynajmniej równoważenie dwóch minimalizacji).

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

Moje pytanie brzmi: dlaczego ten termin regulowania $\alpha\|\theta\|_2^2$ dodawany do pierwotnej funkcji kosztu i nie jest mnożony, czy coś innego, co utrzymuje ducha motywacji za ideą regularyzacji? Czy dlatego, że jeśli dodamy do niego termin, jest on wystarczająco prosty i pozwala nam rozwiązać go analitycznie, czy też jest jakiś głębszy powód?

regularization

— grenmester
źródło

1

Kolejnym argumentem jest twierdzenie reprezentujące

— jkabrg

2

mnożnik lagrangian

— Haitao Du

9

Jeśli masz więcej zmiennych niezależnych niż obserwacje, możesz uzyskać

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ na zero na kilka różnych sposobów, więc pomnożenie przez cokolwiek nie będzie pomóc odróżnić przydatny model

— Henry

47

Ma całkiem niezłą intuicję w ramach Bayesa. Weź pod uwagę, że funkcja kosztu regulowanego $J$ ma podobną rolę jak prawdopodobieństwo konfiguracji parametru $\theta$ biorąc pod uwagę obserwacje $X, y$ . Stosując twierdzenie Bayesa, otrzymujemy:

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

Zapisanie logu wyrażenia daje nam:

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

Powiedzmy teraz, że jest ujemną ¹ log-tylną, . Ponieważ ostatni termin nie zależy od , możemy go pominąć bez zmiany minimum. Jesteś w lewo z dwóch warunków: 1) określenie prawdopodobieństwa w zależności od i , oraz 2) wcześniejszy termin w zależności od tylko. Te dwa terminy odpowiadają dokładnie terminowi danych i terminowi regularyzacji we wzorze. $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

Możesz pójść jeszcze dalej i pokazać, że opublikowana funkcja straty odpowiada dokładnie następującemu modelowi:

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

gdzie parametry pochodzą z zerowego średniego rozkładu Gaussa, a obserwacje mają zerowy średni szum Gaussa. Aby uzyskać więcej informacji, zobacz tę odpowiedź . $\theta$ $y$

¹ Negatywne, ponieważ chcesz zmaksymalizować prawdopodobieństwo, ale zminimalizować koszt.

— Jan Kukacka
źródło

5

Nie jestem trochę usatysfakcjonowany tą odpowiedzią, ponieważ po prostu macha ręką korespondencję między funkcją kosztu a log-posterior. Gdyby koszt nie odpowiadał logarytmowi tylnemu, a raczej samemu odcinkowi, wnioskowalibyśmy, że regularyzację należy pomnożyć przez koszt nieregulowany (jak pytał PO). - Aby właściwie uzasadnić tę odpowiedź, musisz uzasadnić, dlaczego jest to logarytmia tylna, którą utożsamiamy z kosztem. (W pewnym sensie radzisz sobie z „idź dalej”, ale w tym momencie robisz się trochę falujący).

— RM

1

@RM, ważny punkt. Jest powód: dzieje się tak dlatego, że standardowe funkcje strat stosowane w uczeniu maszynowym odpowiadają log-posterior, a nie sam posterior. Dlaczego? Ponieważ używają empirycznej minimalizacji ryzyka; , a standardowe funkcje utraty zwykle przyjmują postać gdzie jest funkcją straty, która ma sensowną interpretację jako prawdopodobieństwo logarytmiczno-tylne. (Podejrzewam, że o tym wiesz, ale mówię o tym innym odwiedzającym.)

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— DW

@RM Jeśli masz jakiś koszt , zawsze możesz po prostu przedefiniować swój problem pod względem . Innymi słowy, niezależnie od funkcji kosztu, definiuje rozkład oparty na podzielony przez pewną stałą normalizującą, którą można zignorować podczas korzystania z metod MCMC. Fakt, że zawsze można powtórzyć pod względem wykładniczym, jest bardzo ważny dla np. Symulowanego wyżarzania, próbników MCMC itp.

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— ely

@RM, na przykład, rozważ ten artykuł autorstwa Jun Liu (i podobny komentarz znajduje się w książce MCK Liu), gdzie na stronie 3 na dole jest napisane: „Niech być docelowym rozkładem prawdopodobieństwa badanym (przypuszczalnie wszystkie pliki pdf można zapisać w tej formie) ”(wyróżnienie dodane). Zatem z bayesowskiego punktu widzenia, gdzie część tylnej zdefiniowana przez model prawdopodobieństwa byłaby tą funkcją straty, ten rozkład bayesowski dla tej odpowiedzi byłby w pełni ogólny.

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— ely

Dziękuję za odpowiedź! Staram się zrozumieć „to” na początku twojego postu: co, twoim zdaniem, ma niezłą intuicję w ramach bayesowskich? podstawowy powód, dla którego dodanie kar daje dobre prognozy? czy historyczny (i niestatystyczny) powód, dla którego ludzie używają tych estymatorów dodatków? (Gdy próbowałem zasugerować moje sformułowanie, myślę, że twoja odpowiedź dotyczy raczej przyczyn historycznych niż statystycznych.)

— user795305

34

Jan i Cagdas podają dobry bayesowski powód, interpretując regularyzator jako pierwszy. Oto niektóre nie bayesowskie:

Jeśli twój nieregularny cel jest wypukły, a dodasz wypukły regulizator, wtedy twój całkowity cel będzie nadal wypukły. Nie będzie to prawdą, jeśli ją pomnożysz, lub większość innych metod łączenia. Optymalizacja wypukła jest naprawdę bardzo ładna w porównaniu do optymalizacji niewypukłej; jeśli wypukła formuła działa, lepiej to zrobić.
Czasami prowadzi to do bardzo prostej zamkniętej formy, jak wspomniano wpof w przypadku regresji grzbietu.
Jeśli myślisz o problemie, który „naprawdę” chcesz rozwiązać, jako problem z twardym ograniczeniem to jego Lagrange dual jest problemem Chociaż nie musisz używać dualności Lagrange'a, wiele się o tym rozumie.
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
Jak wspomniano ogogmad , twierdzenie o reprezentatorze ma zastosowanie w przypadku kary addytywnej: jeśli chcesz zoptymalizować na całej przestrzeni odtwarzającej funkcje jądra Hilberta , to wiemy, że rozwiązanie optymalizacji na całej przestrzeni leży w prostej podprzestrzeni skończonej wielkości dla wielu strat ; Nie wiem, czy tak by się stało z multiplikatywnym regulatorem (choć może). To jest podstawa SVM jądra. $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
Jeśli i tak prowadzisz głębokie uczenie się lub coś niewypukłego: straty addytywne dają proste gradienty addytywne. W przypadku prostego który podałeś, staje się to bardzo prosty masy . Jednak nawet w przypadku bardziej skomplikowanego regularizer, np WGAN-GP jest utrata łatwiej jest dla wstecznej propagacji obliczyć gradienty, gdy trzeba tylko wziąć pod uwagę sumę straty i skomplikowanego regulizatora (rozpatrywać osobno), zamiast konieczności wykonaj regułę produktu. $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
Straty addytywne podlegają również popularnemu algorytmowi optymalizacji ADMM i innym algorytmom opartym na „dekompozycji”.

Żadne z nich nie jest twardymi i szybkimi regułami, a nawet czasami multiplikatywny (lub jakiś inny) regulizator może działać lepiej (jak wskazuje Ogogmad ). (W rzeczywistości, właśnie przedłożyłem artykuł o tym, jak coś, co można interpretować jako multiplikatywny regulizator, działa lepiej niż dodatek WGAN-GP powyżej!). Mam jednak nadzieję, że to pomaga wyjaśnić, dlaczego dodatki regulujące są „domyślne”.

— Dougal
źródło

2

+1. Powodzenia w przesłaniu [prawdopodobnie NIPS]!

— ameba mówi Przywróć Monikę

13

Chcesz zminimalizować oba terminy w funkcji celu. Dlatego musisz oddzielić warunki. Jeśli pomnożysz warunki, jeden może być duży, a drugi bardzo niski. Tak więc nadal otrzymujesz niską wartość funkcji celu, ale z niepożądanym rezultatem.

Możesz skończyć z modelem, który ma najwięcej zmiennych zbliżonych do zera bez mocy predykcyjnej.

Funkcja celu, która jest funkcją, która ma zostać zminimalizowana, może być konstruowana jako suma funkcji kosztu i warunków regularyzacji.

W przypadku, gdy oba są od siebie niezależne, otrzymujesz wartości przedstawione na pierwszym rysunku dla celu. Widzisz w przypadku sumy, jest tylko jedno minimum w (0, 0). W przypadku produktu masz dwuznaczność. Masz całą hiper-powierzchnię równą zero w (x = 0 lub y = 0). Tak więc algorytm optymalizacji może skończyć się gdziekolwiek, w zależności od twojej inicjalizacji. I nie może zdecydować, które rozwiązanie jest lepsze.

— Sören
źródło

10

Możesz wypróbować inne operacje binarne ( ) i zobaczyć, jak się porównują. $\max,\min,\times$

Problem z i polega na tym, że jeśli błąd wynosi , kara regulowana skończy się na . Pozwala to na dopasowanie modelu. $\min$ $\times$ $0$ $0$

Problem z polega na tym, że w końcu minimalizujesz „trudniejsze” z dwóch kar (błąd szkolenia lub regularyzacja), ale nie drugiej. $\max$

Natomiast jest prosty i działa. $+$

Możesz zapytać, dlaczego nie inne operacje binarne? Nie ma argumentu, który mógłby ich wykluczyć, więc dlaczego nie?

— jkabrg
źródło

8

Myślę, że masz ważne pytanie. Aby udzielić właściwej odpowiedzi, musisz zrozumieć probabilistyczny charakter problemu.

Zasadniczo problem, który próbujemy rozwiązać, jest następujący: Biorąc pod uwagę dane jaki jest rozkład hipotez wyjaśniających te dane. Kiedy mówimy hipotezę, mamy na myśli PDF (przynajmniej w tym kontekście). A dystrybucja hipotez to PDF w formacie PDF, tzn. . $D$ $p(H | D)$

$p(H | D)$ jest podział na hipotezach danych . Jeśli możemy to znaleźć, możemy wybrać jedną z tych hipotez, na przykład tę o najwyższym prawdopodobieństwie, lub możemy wybrać uśrednienie dla wszystkich z nich. Nieco łatwiejszym podejściem jest zaatakowanie problemu z innej strony za pomocą twierdzenia Bayesa. $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ jest jedną z hipotez, zwaną również prawdopodobieństwem. to rozkład hipotez w naszym wszechświecie hipotez przed obserwacją danych. Po obserwacji danych aktualizujemy nasze przekonania. $p(H)$
$p(D)$ jest średnią hipotez, zanim zaktualizowaliśmy nasze przekonania.

Teraz, jeśli weźmiemy z obu stron równania Bayesa, otrzymamy: $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

Zwykle trudno jest obliczyć . Dobrą rzeczą jest to, że nie wpływa to na wynik. Jest to po prostu stała normalizacyjna. $p(D)$

Teraz na przykład, jeśli nasz zestaw hipotez jest grupą Gaussów z gdzie nie wiemy , ale zakładamy, że wiemy (lub przynajmniej zakładamy, że jest stała), a ponadto same hipotezy są rozłożone jako gaussowskie z następnie podłączenie wszystkiego powyżej wygląda mniej więcej tak: $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

Teraz, jeśli zminimalizujemy to wyrażenie, znajdziemy hipotezę o najwyższym prawdopodobieństwie. Stałe nie wpływają na minimalizację. To jest wyrażenie w twoim pytaniu.

Fakt, że użyliśmy Gaussianów, nie zmienia faktu, że termin regularyzacji jest dodatkowy. Musi być addytywny (w kategoriach logarytmicznych lub multiplikatywny w prawdopodobieństwach), nie ma innego wyboru. To, co zmieni się, jeśli użyjemy innych dystrybucji, to składniki dodatku. Podana funkcja kosztów / strat jest optymalna dla konkretnego scenariusza Gaussów.

— Cagdas Ozgenc
źródło

Hej Cagdas, dzięki za wyjaśnienie. Nie zrozumiałem transformacji ostatniego równania na RHS. Czy możesz wskazać mi jakieś źródło, aby lepiej zrozumieć tę część

— Itachi

7

Ridge to bardzo wygodny preparat. W przeciwieństwie do odpowiedzi probabilistycznych, odpowiedzi te nie dają żadnej interpretacji oszacowania, lecz wyjaśniają, dlaczego grzbiet jest starym i oczywistym sformułowaniem.

W regresji liniowej równania normalne dają $\hat{\theta} = (X^TX)^{-1} X^T y$

Ale matryca czasami nie jest odwracalna; jeden sposób, aby dostosować się przez dodanie małej elementu przekątnej: . $X^TX$ $X^TX + \alpha I$

Daje to rozwiązanie: ; wtedy nie rozwiązuje oryginalnego problemu, ale zamiast problemu z kalenicą. $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
źródło

3

Proszę podać odpowiedzi, o których mowa. Kolejność będzie się zmieniać w miarę gromadzenia głosów, więc „powyżej” jest z natury niejednoznaczne.

— Gung - Przywróć Monikę

1

Myślę, że istnieje bardziej intuicyjny powód, dla którego nie możemy pomnożyć przez termin regularyzacji.

Przejdźmy naszą funkcję kary do zwykłej funkcji kary pomnożonej przez termin regularyzacji, jak sugerujesz.

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

Tutaj tworzymy globalne minimum funkcji kary, gdzie . W tym przypadku nasz model może generować wysokie błędy między prognozą a danymi, ale to nie ma znaczenia, jeśli wszystkie wagi parametrów modelu są zerowe, nasza funkcja kary wynosi zero . $α‖θ‖^2_2=0$ $J(θ=0)=0$

Ponieważ, chyba że nasz model jest całkowicie idealny, termin nigdy nie może wynosić zero (prawdopodobieństwo istnienia zbioru θ aby nasz model był „idealny” w przypadku rzeczywistych danych, nie ma znaczenia), wtedy nasz model powinien zawsze dążyć do rozwiązania θ = 0. $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

To właśnie zwróci, chyba że utknie gdzieś w lokalnym minimum.

— James Fulton
źródło