Pierwsze dwa algorytmy, o których wspominasz (Nelder-Mead i Symulowane wyżarzanie) są ogólnie uważane za dość przestarzałe w kręgach optymalizacyjnych, ponieważ istnieją znacznie lepsze alternatywy, które są zarówno bardziej niezawodne, jak i tańsze. Algorytmy genetyczne obejmują szeroki zakres, a niektóre z nich mogą być uzasadnione.
Jednak w szerszej klasie algorytmów optymalizacji bez pochodnych (DFO) istnieje wiele, które są znacznie lepsze niż te „klasyki”, ponieważ był to aktywny obszar badań w ostatnich dziesięcioleciach. Czy zatem niektóre z tych nowszych podejść mogą być uzasadnione w przypadku głębokiego uczenia się?
Stosunkowo najnowszy artykuł porównujący najnowszy stan techniki jest następujący:
Rios, LM i Sahinidis, NV (2013) Optymalizacja bez instrumentów pochodnych: przegląd algorytmów i porównanie implementacji oprogramowania. Journal of Global Optimization.
To miły artykuł, który ma wiele interesujących spostrzeżeń na temat najnowszych technik. Na przykład wyniki wyraźnie pokazują, że najlepsze lokalne optymalizatory są „oparte na modelach”, wykorzystując różne formy sekwencyjnego programowania kwadratowego (SQP).
Jednakże, jak zauważono w ich streszczeniu „Stwierdzamy, że zdolność wszystkich tych solverów do uzyskiwania dobrych rozwiązań zmniejsza się wraz ze wzrostem wielkości problemu”. Aby dać wyobrażenie o liczbach, dla wszystkich problemów solverom przydzielono budżet na 2500 ewaluacji funkcji, a rozmiary problemów były maksymalnie ~ 300 parametrów do optymalizacji. Poza parametrami O [10] bardzo niewiele z tych optymalizatorów działało bardzo dobrze, a nawet te najlepsze wykazywały zauważalny spadek wydajności wraz ze wzrostem wielkości problemu.
W przypadku problemów o bardzo dużych wymiarach algorytmy DFO po prostu nie są konkurencyjne w stosunku do tych opartych na pochodnych. Aby dać perspektywę, optymalizacja oparta na PDE (częściowym równaniu różniczkowym) to kolejny obszar z bardzo wysokimi wymiarami (np. Kilka parametrów dla każdej komórki dużej siatki elementów skończonych 3D). W tej dziedzinie „ metoda łączenia ” jest jedną z najczęściej używanych metod. Jest to również optymalizator opadania gradientu oparty na automatycznym różnicowaniu kodu modelu do przodu.
Najbliżej wysoko-wymiarowego optymalizatora DFO jest być może Ensemble Kalman Filter , stosowany do asymilacji danych w złożone symulacje PDE, np. Modele pogodowe. Co ciekawe, jest to zasadniczo podejście SQP, ale z interpretacją Bayesa-Gaussa (więc model kwadratowy jest pozytywnie określony, tj. Nie ma punktów siodłowych). Ale nie sądzę, że liczba parametrów lub obserwacji w tych aplikacjach jest porównywalna z tym, co widać w głębokim uczeniu się.
Uwaga dodatkowa (minima lokalne): Z małego fragmentu, który przeczytałem na temat głębokiego uczenia się, myślę, że konsensus jest taki, że są to punkty siodłowe, a nie lokalne minima, które są najbardziej problematyczne dla przestrzeni o wysokich wymiarach z parametrami NN.
Na przykład w niedawnym przeglądzie „ Nature” stwierdza się, że „Ostatnie wyniki teoretyczne i empiryczne zdecydowanie sugerują, że lokalne minima nie są ogólnie poważnym problemem. Zamiast tego krajobraz jest wypełniony kombinatorycznie dużą liczbą punktów siodłowych, w których gradient wynosi zero, a powierzchnia wygina się w większości wymiarów, a pozostała część wygina się w dół. ”
Powiązany problem dotyczy optymalizacji lokalnej vs. globalnej (na przykład to pytanie wskazano w komentarzach). Chociaż nie uczę się głęboko, z mojego doświadczenia wynika, że nadmierne dopasowanie jest zdecydowanie uzasadnione. Moim zdaniem globalne metody optymalizacji są najbardziej odpowiednie w przypadku problemów projektowania inżynierskiego , które nie zależą silnie od „naturalnych” danych. Problemy asymilacja danych, każdy obecny globalny minima można łatwo zmienić po dodaniu nowych danych (uwaga: Moje doświadczenie jest skoncentrowany na problemach geologicznych, w których dane są ogólnie „rzadki” w stosunku do pojemności modelu).
Być może ciekawa perspektywa
O. Bousquet & L. Bottou (2008) Kompromisy uczenia się na dużą skalę. NIPS.
który dostarcza pół teoretycznych argumentów na temat tego, dlaczego i kiedy optymalizacja przybliżona może być lepsza w praktyce.
Uwaga końcowa (metaoptymalizacja): Podczas gdy techniki oparte na gradientach wydają się dominować w sieciach szkoleniowych, DFO może odgrywać rolę w powiązanych zadaniach metaoptymalizacji.
Jednym z przykładów byłoby dostrajanie hiperparametrów. (Co ciekawe, udane oparte na modelu optymalizatory DFO firmy Rios i Sahinidis można postrzegać jako zasadniczo rozwiązujące sekwencję problemów związanych z projektowaniem eksperymentów / powierzchnią odpowiedzi ).
O[N2]notL1 może być jednak zoptymalizowany meta).