Jak wspomniał Jed Brown, związek między spadkiem gradientu w optymalizacji nieliniowej a skokami czasowymi układów dynamicznych jest ponownie odkrywany z pewną częstotliwością (co zrozumiałe, ponieważ jest to bardzo satysfakcjonujące połączenie z umysłem matematycznym, ponieważ łączy dwa pozornie różne pola). Jednak rzadko okazuje się przydatnym połączeniem, szczególnie w opisywanym kontekście.
Odwrotnie problemu jest zainteresowany w rozwiązaniu (III-postawione) operatora równania z nie w zakresie . (Twój optymalny problem z kontrolą może być postrzegany jako jeden jego przykład z i .) Kilka strategii regularyzacji (takich jak Tichonow lub Landweber) można interpretować jako pojedynczy pseudo-czas krok pewnej klasy. Chodzi o to, aby użyć interpretacji parametru regularyzacji jako długości kroku, aby uzyskać pewne reguły wyboru (adaptacyjne, a posteriori) dla parametru - podstawowy problem w odwrotnych problemach - i być może wykonać wiele kroków pseudo-czasowych, aby podejść do prawdziwego, nieregularnego rozwiązania (podobnie jaky δ F F = A - 1 rok δ = y 0F(u)=yδyδFF=A−1yδ=y0kontynuacja numeryczna ). Czasami nazywa się to ciągłą regularyzacją i zwykle omawia się ją w kontekście metod ustalania poziomu; patrz na przykład rozdział 6.1 Kaltenbacher, Scherzer, Neubauer: Iteracyjne metody regularyzacji nieliniowych problemów źle ułożonych (de Gruyter, 2008).
Drugim kontekstem, w którym często pojawia się ta idea, jest optymalizacja nieliniowa: jeśli spojrzysz na stopień opadania gradientu dla ,
możesz zinterpretować to jako krok Eulera do przodu dla układu dynamicznego
Jak zauważył Jed Brown, na pierwszy rzut oka widać jedynie niezbyt zaskakującą obserwację, że ta metoda jest zbieżna, pod warunkiem, że kroki pseudo-czasowe są wystarczająco małe. Interesująca część przychodzi, gdy spojrzysz na układ dynamiczny i zadajesz sobie pytanie, jakie właściwości ma rozwiązanie ciągłe tak zwanego przepływu gradientowegominxf(x)
xk+1=xk−γk∇f(xk),
x˙(t)=−∇f(x(t)),x(0)=x0.
x ( t )γkx(t)ma (lub powinien mieć), niezależnie od spadku gradientu, i czy nie może to prowadzić do bardziej odpowiednich metod krokowych (a tym samym do optymalizacji) niż standardowy Euler. Kilka przykładów z mojej głowy:
Czy istnieje naturalna przestrzeń funkcji, w której żyje przepływ gradientu? Jeśli tak, krok gradientu powinien zostać pobrany z tej samej przestrzeni (tzn. Dyskretyzacja powinna być zgodna). Prowadzi to np. Do obliczenia reprezentacji gradientu Riesza w odniesieniu do różnych iloczynów wewnętrznych (czasami nazywanych gradientami Sobolewa ) i, w praktyce, do wstępnie przygotowanych iteracji, które zbiegają się znacznie szybciej.
Może powinno należeć do przestrzeni wektorowej, ale do rozmaitości (np. Symetryczne dodatnie określone macierze), lub przepływ gradientu powinien zachować pewną normę . W takim przypadku można spróbować zastosować schematy odmierzania czasu zachowujące strukturę (np. Polegające na wycofaniu w stosunku do odpowiedniej grupy Liego lub integratora geometrycznego).xx
Jeżeli nie jest różniczkowalny, ale wypukły, krok Eulera do przodu odpowiada metodzie opadania podgradienta, która może być bardzo wolna z powodu ograniczeń wielkości kroku. Z drugiej strony, domyślny krok Eulera odpowiada metodzie punktu bliższego , do której nie mają zastosowania takie ograniczenia (i która stała się bardzo popularna np. W przetwarzaniu obrazu).f
W podobny sposób metody te można znacznie przyspieszyć etapami ekstrapolacji. Jednym ze sposobów ich motywowania jest obserwowanie, że standardowe metody pierwszego rzędu cierpią z powodu konieczności wykonywania wielu małych kroków w pobliżu minimizatorów, ponieważ kierunki gradientu „oscylują” (pomyśl o standardowej ilustracji, dlaczego gradienty sprzężone przewyższają strome zejście). Aby temu zaradzić, można „tłumić” iterację, nie rozwiązując układu dynamicznego pierwszego rzędu, ale układu drugiego rzędu :
dla odpowiednio wybranego . Przy odpowiedniej dyskretyzacji prowadzi to do iteracji (znanej jako metoda ciężkiej kuli Polyaka ) formy
a1x¨(t)+a2x˙(t)=−∇f(x(t))
a1,a2xk+1=xk−γk∇f(xk)+αk(xk−xk−1)
(z zależności od ). Podobne pomysły istnieją dla metod punktów bliższych, patrz np. Artykuł http://arxiv.org/pdf/1403.3522.pdf autorstwa Dirka Lorenza i Thomasa Pocka.a 1 , a 2γk,αka1,a2
(Powinienem dodać, że o ile wiem, w większości tych przypadków interpretacja jako system dynamiczny nie była absolutnie niezbędna do wyprowadzenia algorytmu algorytmu; nie można też zaprzeczyć, że takie pomysły jak pochodne ukryte lub jawne lub pochodne Lie są w rzeczywistości bardziej fundamentalne niż systemy dynamiczne lub metody zejścia gradientowego. Mimo to, nigdy nie boli mieć inny punkt widzenia, z którego można spojrzeć na problem.)
EDYCJA: Właśnie natknąłem się na doskonały przykład z drugiego kontekstu, w którym interpretacja ODE służy do wywnioskowania właściwości metody ekstradientowej Nesterova i zasugerowania ulepszeń:
http://arxiv.org/pdf/1503.01243.pdf
(zauważ, że jest to również przykład punktu Jeda Browna, w którym autorzy zasadniczo odkryli punkt 4 powyżej, najwyraźniej nie znając algorytmu Polyaka.)
EDYCJA 2: Jako wskazówkę, jak daleko możesz to zrobić, patrz strona 5 http://arxiv.org/pdf/1509.03616v1.pdf .