Regularność jest stosowana w prawie wszystkich algorytmach uczenia maszynowego, w których próbujemy uczyć się na podstawie skończonych próbek danych szkoleniowych.
Spróbuję pośrednio odpowiedzieć na twoje szczegółowe pytania, wyjaśniając genezę pojęcia regularyzacji. Pełna teoria jest o wiele bardziej szczegółowa i to wyjaśnienie nie powinno być interpretowane jako kompletne, ale ma na celu po prostu wskazanie właściwego kierunku dalszej eksploracji. Ponieważ twoim głównym celem jest intuicyjne zrozumienie regularyzacji, streściłem i bardzo uprościłem następujące wyjaśnienie z rozdziału 7 „Sieci neuronowe i maszyny uczenia się”, wydanie trzecie autorstwa Simona Haykina (i pominęłem przy tym kilka szczegółów).
Powróćmy do nadzorowanego problemu uczenia się ze zmiennymi niezależnymi i zmienną zależną próbując znaleźć funkcję która będzie w stanie „zamapować” wejście X na wyjście Y.xiyif
Mówiąc dalej, zrozummy terminologię Hadamarda dotyczącą „dobrze postawionego” problemu - problem jest dobrze postawiony, jeśli spełnia następujące trzy warunki:
- Dla każdego wejścia istnieje wyjście .xiyi
- Dla pary wejść i , wtedy i tylko wtedy, gdy .x1x2f(x1)=f(x2)x1=x2
- Odwzorowanie jest ciągłe (kryteria stabilności)f
W przypadku nauki nadzorowanej warunki te mogą zostać naruszone, ponieważ:
- Dla danego wejścia może nie istnieć odrębny wynik.
- W próbkach treningowych może nie być wystarczającej ilości informacji, aby stworzyć unikalne mapowanie przepływów międzygałęziowych (ponieważ uruchomienie algorytmu uczenia się na różnych próbkach treningowych powoduje różne funkcje mapowania).
- Hałas w danych zwiększa niepewność procesu rekonstrukcji, co może wpłynąć na jego stabilność.
Aby rozwiązać takie „źle postawione” problemy, Tichonow zaproponował metodę regularyzacji w celu ustabilizowania rozwiązania poprzez włączenie nieujemnej funkcji, która zawiera wcześniejsze informacje o rozwiązaniu.
Najczęstszą formą wcześniejszych informacji jest założenie, że funkcja mapowania przepływów międzygałęziowych jest płynna - tj. Podobne dane wejściowe dają podobne wyniki.
Teoria regularyzacji Tikhnova dodaje termin regularyzacji do funkcji kosztu (funkcja straty do zminimalizowania), która obejmuje parametr regularyzacji i przyjętą formę odwzorowania . Wartość jest wybierana między 0 a . Wartość 0 oznacza, że rozwiązanie jest określane całkowicie na podstawie próbek szkoleniowych; podczas gdy wartość oznacza, że przykłady szkolenia są niewiarygodne.λfλ∞∞
Zatem parametr regularyzacji jest wybierany i optymalizowany w celu osiągnięcia pożądanej równowagi między odchyleniem modelu a wariancją modelu poprzez włączenie do niego odpowiedniej ilości wcześniejszych informacji.λ
Oto niektóre przykłady takich kosztów kosztów regulowanych:
Regresja liniowa:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Regresja logistyczna:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
Gdzie to współczynniki, które zidentyfikowaliśmy dla , a jest oszacowaniem .θxhθ(x)y
Drugim terminem sumowania w każdym przykładzie jest termin regularyzacji. Ponieważ termin ten jest zawsze wartością nieujemną, uniemożliwia optymalizatorowi osiągnięcie globalnych minimów dla funkcji kosztu. Przedstawiona tutaj forma terminu to regularyzacja . Istnieje wiele odmian w postaci funkcji regularyzacji, najczęściej stosowanymi formami są: lasso, siatka elastyczna i regresja kalenicowa. Mają one swoje zalety i wady, które pomagają zdecydować, gdzie najlepiej je zastosować.L2
Efektem netto zastosowania regularyzacji jest zmniejszenie złożoności modelu, co zmniejsza nadmierne dopasowanie. Inne podejścia do regularyzacji (niewymienione w powyższych przykładach) obejmują modyfikacje modeli strukturalnych, takie jak drzewa regresji / klasyfikacji, drzewa wzmocnione itp. Poprzez usunięcie węzłów w celu uproszczenia drzew. Niedawno zastosowano to w tak zwanym „głębokim uczeniu się” poprzez porzucenie połączeń między neuronami w sieci neuronowej.
Konkretną odpowiedzią na trzeci kwartał jest to, że niektóre metody zestawiania, takie jak Losowy Las (lub podobne schematy głosowania), osiągają regularyzację ze względu na swoją nieodłączną metodę, tj. Głosowanie i wybieranie odpowiedzi z kolekcji nieregulowanych Drzew. Mimo, że poszczególne drzewa się pokrywają, proces „uśredniania” ich wyniku powstrzymuje zespół od przeregulowania do zestawu treningowego.
EDYTOWAĆ:
Pojęcie regularności należy do teorii zbiorów aksjomatycznych, możesz zapoznać się ze wskazówkami w tym artykule - en.wikipedia.org/wiki/Aksjomat_regularności i rozwinąć ten temat, jeśli interesują Cię szczegóły.
W przypadku regularyzacji dla sieci neuronowych: Podczas dostosowywania wag podczas działania algorytmu wstecznej propagacji, termin regularyzacji jest dodawany do funkcji kosztu w taki sam sposób, jak przykłady regresji liniowej i logistycznej. Tak więc dodanie terminu regularyzacji uniemożliwia propagacji wstecznej osiągnięcie globalnych minimów.
Artykuł opisujący normalizację partii dla sieci neuronowych brzmi - Normalizacja partii: przyspieszenie uczenia głębokiej sieci przez zmniejszenie wewnętrznego przesunięcia współzmiennej, Ioffe, Szegedy, 2015. Wiadomo, że propagowanie wsteczne w celu trenowania sieci neuronowej działa lepiej, gdy zmienne wejściowe są znormalizowane. W tym artykule autorzy zastosowali normalizację do każdej mini-partii stosowanej w stochastycznym spadku gradientu, aby uniknąć problemu „zanikania gradientów” podczas szkolenia wielu warstw sieci neuronowej. Algorytm opisany w ich pracy traktuje średnią i wariancję obliczoną w każdej partii dla każdej warstwy aktywacji jako kolejny zestaw parametrów zoptymalizowanych w mini-partii SGD (oprócz wag NN). Aktywacje są następnie znormalizowane przy użyciu całego zestawu treningowego. Możesz zapoznać się z ich dokumentem, aby uzyskać szczegółowe informacje na temat tego algorytmu. Korzystając z tej metody, udało im się uniknąć rezygnacji z regularyzacji, a zatem twierdzą, że jest to inny rodzaj regularyzacji.