Prostym sposobem na wyjaśnienie tego jest to, że regularyzacja pomaga nie dopasować się do szumu, nie robi wiele w zakresie określania kształtu sygnału. Jeśli myślisz o głębokim uczeniu się jako o wielkim chwalebnym aproksymatorze funkcji, zdajesz sobie sprawę, że potrzeba dużej ilości danych, aby zdefiniować kształt złożonego sygnału.
Gdyby nie było hałasu, zwiększenie złożoności NN spowodowałoby lepsze przybliżenie. Rozmiar NN nie byłby karą, większy byłby lepszy w każdym przypadku. Rozważ przybliżenie Taylora, więcej funkcji jest zawsze lepszych dla funkcji niepolomomicznej (ignorując problemy z dokładnością liczbową).
Rozkłada się w obecności hałasu, ponieważ zaczynasz dopasowywać się do hałasu. Tak więc przychodzi regularyzacja, która może pomóc: może zmniejszyć dopasowanie do hałasu, co pozwala nam budować większe NN w celu dopasowania do problemów nieliniowych.
Poniższa dyskusja nie jest niezbędna do mojej odpowiedzi, ale dodałem częściowo, aby odpowiedzieć na niektóre komentarze i zmotywować główny fragment powyższej odpowiedzi. Zasadniczo reszta mojej odpowiedzi jest jak francuskie pożary, które pochodzą z burgerowym posiłkiem, możesz to pominąć.
(Ir) dotyczy Przypadek: regresja wielomianowa
grzech( x )x ∈ ( - 3 , 3 )
Następnie dopasujemy wielomiany o stopniowo wyższym porządku do małego, bardzo głośnego zestawu danych z 7 obserwacjami:
Możemy obserwować to, co wiele osób znało na temat wielomianów: są one niestabilne i zaczynają gwałtownie oscylować wraz ze wzrostem kolejności wielomianów.
Problemem nie są jednak same wielomiany. Problemem jest hałas. Kiedy dopasowujemy wielomiany do zaszumionych danych, część dopasowania dotyczy szumu, a nie sygnału. Oto te same dokładne wielomiany pasujące do tego samego zestawu danych, ale z całkowicie usuniętym szumem. Pasowania są świetne!
grzech( x )
Zauważ też, że wielomiany wyższego rzędu nie pasują tak dobrze jak kolejność 6, ponieważ nie ma wystarczającej liczby obserwacji, aby je zdefiniować. Spójrzmy więc na to, co stanie się ze 100 obserwacjami. Na poniższym wykresie widać, jak większy zestaw danych pozwolił nam dopasować wielomiany wyższego rzędu, osiągając w ten sposób lepsze dopasowanie!
Świetnie, ale problem polega na tym, że zwykle mamy do czynienia z hałaśliwymi danymi. Zobacz, co się stanie, jeśli dopasujesz to samo do 100 obserwacji bardzo hałaśliwych danych, patrz tabela poniżej. Wracamy do punktu wyjścia: wielomiany wyższego rzędu wytwarzają okropne drgania oscylacyjne. Tak więc zwiększenie zestawu danych nie pomogło tak bardzo w zwiększeniu złożoności modelu, aby lepiej wyjaśnić dane. Dzieje się tak, ponieważ złożony model lepiej pasuje nie tylko do kształtu sygnału, ale także do kształtu szumu.
Na koniec spróbujmy trochę kiepskiej regulacji tego problemu. Poniższy wykres pokazuje regularyzację (z różnymi karami) zastosowaną do zamówienia 9 regresji wielomianowej. Porównaj to z powyższym dopasowaniem wielomianu rzędu (mocy) 9: przy odpowiednim poziomie regularyzacji możliwe jest dopasowanie wielomianów wyższego rzędu do zaszumionych danych.
Na wszelki wypadek nie było jasne: nie sugeruję używania w ten sposób regresji wielomianowej. Wielomiany nadają się do lokalnych dopasowań, więc wielomian częściowy może być dobrym wyborem. Dopasowywanie do nich całej domeny jest często złym pomysłem, ponieważ są wrażliwe na hałas, tak jak powinno to wynikać z powyższych wykresów. To, czy szum jest liczbowy czy z jakiegoś innego źródła, nie jest tak ważne w tym kontekście. hałas jest hałasem, a wielomiany zareagują na to z pasją.