Zrozumienie „prawie wszystkie lokalne minimum mają bardzo podobną wartość funkcji do globalnego optimum”

W ostatnim poście na blogu Rong Ge powiedziano, że:

Uważa się, że w przypadku wielu problemów, w tym uczenia się sieci głębokich, prawie wszystkie lokalne minimum mają bardzo podobną wartość funkcji do globalnego optimum, a zatem znalezienie lokalnego minimum jest wystarczające.

Skąd się bierze ta wiara?

— John Donn
źródło

Będę zaskoczony, jeśli nie będzie to stwierdzenie empiryczne.

— usεr11852 mówi: Przywróć Monic

Niedawny artykuł The Loss Surfaces of Multilayer Networks zawiera kilka możliwych wyjaśnień tego. Z ich streszczenia (pogrubienie jest moje):

„Przypuszczamy, że zarówno symulowane wyżarzanie, jak i SGD są zbieżne z pasmem niskich punktów krytycznych oraz że wszystkie znalezione punkty krytyczne są lokalnymi minimami wysokiej jakości mierzonymi przez błąd testu. Podkreśla to zasadniczą różnicę między sieciami dużych i małych gdzie w przypadku tych ostatnich minima lokalne o niskiej jakości mają niezerowe prawdopodobieństwo odzyskania. Wreszcie udowadniamy, że odzyskiwanie globalnego minimum staje się trudniejsze wraz ze wzrostem wielkości sieci i że w praktyce jest nieistotne, ponieważ globalne minimum często prowadzi do przeregulowania . ”

Wielu wpływowych ludzi w głębokim uczeniu się (Yann LeCunn i Yoshua Bengio, aby wymienić tylko kilka) i niektórzy badacze pochodzący bardziej z matematyki (Rong Ge i inni współpracownicy Sanjeev Arora) dyskutowali i badali te pomysły.

W wyżej wspomnianym dokumencie, patrz rysunek 3, który pokazuje zjawisko pasmowania / koncentracji lokalnych wartości minimalnych, ponieważ sieci mają więcej ukrytych jednostek. Pasmowanie / koncentracja reprezentuje pewne empiryczne dowody, że dla głębszych lub większych modeli lokalne minima są „wystarczająco dobre”, ponieważ ich wartości strat są z grubsza podobne. A co najważniejsze, mają stratę zbliżoną do globalnego minimum, ponieważ model staje się bardziej złożony (w tym przypadku szerszy, ale w praktyce głębszy).

Ponadto używają modelu typu spin-glass, który nawet twierdzą, że jest tylko modelem i niekoniecznie wskazuje na prawdziwy obraz, aby pokazać, że osiągnięcie globalnego minimalizatora z lokalnych minimów może potrwać wykładniczo długo:

„Aby znaleźć kolejne niskie minimum, musimy przejść przez punkt siodłowy. Dlatego musimy wejść co najmniej do poziomu, na którym jest równa liczba punktów siodłowych, aby mieć przyzwoitą szansę na znalezienie ścieżki, która mogłaby ewentualnie pójść do innego lokalnego minimum. Proces ten zajmuje wykładniczo długi czas, więc w praktyce znalezienie globalnego minimum nie jest możliwe. ”

Badania Rong Ge koncentrują się na przełamywaniu punktów siodłowych. Yoshua Bengio i jego współpracownicy postawili dość odważną hipotezę Saddle Point:

W oparciu o wyniki z fizyki statystycznej, teorii macierzy losowych, teorii sieci neuronowych i dowodów empirycznych dowodzimy tutaj, że głębsza i głębsza trudność wynika z rozprzestrzeniania się punktów siodłowych, a nie lokalnych minimów, szczególnie w problematycznych wymiarach o znaczeniu praktycznym . Takie punkty siodłowe są otoczone płaskowyżami o wysokim poziomie błędu, które mogą radykalnie spowolnić naukę i dać iluzoryczne wrażenie istnienia lokalnego minimum.

źródło tutaj: Identyfikacja i atakowanie problemu punktu siodłowego w wielowymiarowej optymalizacji niewypukłej.

W pewnym stopniu powyższe dwa podejścia nie są dokładnie takie same (hipoteza punktu siodłowego może kwestionować, co tak naprawdę jest lokalnymi minimami, a co jest jedynie źle uwarunkowanym punktem siodłowym z bardzo długim regionem płaskowyżu?). Hipoteza Saddle Point polega na tym, że możliwe jest zaprojektowanie metod optymalizacji w celu przełamania punktów siodełka, na przykład Newton bez siodła z artykułu Bengio, aby potencjalnie przyspieszyć konwergencję, a może nawet osiągnąć globalne maksimum. Pierwszy artykuł dotyczący wielowarstwowej utraty powierzchni nie jest tak naprawdę zainteresowany osiągnięciem globalnego optimum i tak naprawdę wierzy, że ma on słabe właściwości naddatku. Co ciekawe, oba artykuły wykorzystują pomysły z fizyki statystycznej i modeli spin-glass.

Ale są one w pewnym stopniu powiązane, ponieważ oba artykuły uważają, że aby osiągnąć globalny minimalizator, trzeba pokonać wyzwanie optymalizacji punktów siodłowych. Pierwszy artykuł po prostu uważa, że lokalne minima są wystarczająco dobre.

Można się zastanawiać, czy metody pędu i inne nowe algorytmy optymalizacji, które mogą oszacować niektóre właściwości krzywizny drugiego rzędu, mogą uniknąć punktów siodłowych. Słynna animacja Aleca Radforda tutaj .

Aby odpowiedzieć na twoje pytanie: „skąd się bierze to przekonanie” Osobiście uważam, że wynika to z faktu, że można użyć różnych losowych nasion do nauki różnych wag, ale odpowiednie sieci mają podobną wydajność ilościową. Na przykład, jeśli ustawisz dwa różne losowe nasiona do inicjowania wagi Glorot, prawdopodobnie nauczysz się różnych wag, ale jeśli trenujesz przy użyciu podobnych metod optymalizacji, sieci będą miały podobną wydajność. Jednym z powszechnych przekonań folklorystycznych jest to, że krajobraz optymalizacji jest podobny do kartonu z jajkiem, kolejny dobry post na blogu na ten temat tutaj: Koniec z lokalnymi minimami? z analogią kartonu jajecznego.

Edycja: Chciałem tylko wyjaśnić, że analogia kartonu jajowego nie jest prawdziwa, w przeciwnym razie nie byłoby potrzeby rozpędu ani innych bardziej zaawansowanych technik optymalizacji. Ale wiadomo, że SGD nie działa tak dobrze, jak SGD + Momentum lub bardziej nowoczesne algorytmy optymalizacji, być może z powodu istnienia punktów siodłowych.

— Indie AI
źródło

+1 Imponująco pouczająca i autorytatywna odpowiedź - w zaledwie kilku łatwo zrozumiałych akapitach wydaje się, że zawiera pomysły i aktualne kierunki w obrębie znacznego podpola.

— whuber

Dziękuję za Twoją odpowiedź. Skoro wspomniałeś o Yann LeCun, czy mógłbyś zwrócić uwagę na szczególne odniesienie, które omawia te lub podobne pomysły?

— John Donn

Hej John: artykuł Loss Surface of Multilayer Nets, o którym wspomniałem w poście, jest współautorem Yanna. Innym podobnym artykułem, którego współautorem jest Yann, są eksploracje pejzaży wielowymiarowych . Te dwa artykuły są dość podobne, ten, do którego pierwotnie się odniosłem, wydaje się być bardziej popularny.

— Indie AI

Link „Nigdy więcej lokalnych minimów” nie działa. Dzięki szybkiemu wyszukiwaniu w Google nie mogłem znaleźć wpisu na blogu, do którego się odnosi. Czy wpis na blogu jest offline? Czy po prostu się przeprowadził?

— LMB