(Edytuj notatki: Zreorganizowałem to po tym, jak przeraziłem się jego długością.)
Literatura na temat opadania współrzędnych może być nieco trudna do wyśledzenia. Oto kilka powodów tego.
Wiele znanych właściwości metod współrzędnych jest ujętych w twierdzeniach parasolowych dla bardziej ogólnych metod zejścia. Dwa przykłady tego, podane poniżej, są szybka konwergencja pod silną wypukłość (hold dla każdego największego spadku), a ogólna konwergencja tych metod (zwykle przypisywane Zoutendijk).lp
Nazewnictwo nie jest standardowe. Nawet termin „najbardziej stromy zjazd” nie jest standardem. Możesz odnosić sukcesy w Google, używając dowolnego terminu „cykliczne zejście współrzędnych”, „zejście współrzędnych”, „Gauss-Seidel”, „Gauss-Southwell”. użycie nie jest spójne.
nn
O (ln( 1 / ϵ ) )lp
Ograniczenia Bez silnej wypukłości musisz zacząć być trochę ostrożny. Nie mówiłeś nic o ograniczeniach, a zatem ogólnie rzecz biorąc, minimum może być nieosiągalne. Powiem krótko na temat ograniczeń, że standardowym podejściem (z metodami opadania) jest rzutowanie na zestaw ograniczeń, ustawiając każdą iterację, aby zachować wykonalność, lub użyć barier, aby wprowadzić ograniczenia do funkcji celu. W przypadku tego pierwszego nie wiem, jak to gra ze współrzędnym opadaniem; w przypadku tego ostatniego działa dobrze przy zejściu ze współrzędnymi, a bariery te mogą być silnie wypukłe.
Bardziej konkretnie do metod współrzędnych, zamiast projekcji, wiele osób po prostu sprawia, że aktualizacja współrzędnych zachowuje wykonalność: dzieje się tak na przykład w przypadku algorytmu Frank-Wolfe i jego wariantów (tj. Wykorzystywania go do rozwiązywania SDP).
Zauważę też pokrótce, że algorytm SMO dla SVM może być postrzegany jako metoda opadania współrzędnych, w której aktualizujesz dwie zmienne jednocześnie i utrzymujesz w tym czasie ograniczenie wykonalności. Wybór zmiennych jest heurystyczny w tej metodzie, więc gwarancje są tak naprawdę tylko gwarancjami cyklicznymi. Nie jestem pewien, czy to połączenie pojawia się w standardowej literaturze; Dowiedziałem się o metodzie SMO z notatek kursowych Andrew Nga i stwierdziłem, że są całkiem czyste.
n
O (ln( 1 / ϵ ) )
Istnieje kilka ostatnich wyników dotyczących opadania współrzędnych, widziałem rzeczy na arXiv. Ponadto luo i tseng mają kilka nowszych dokumentów. ale to jest najważniejsze.
∑mi = 1sol( ⟨ja, X ⟩ )sol( aja)m1λexp( 1 / ϵ2))O (1 / ϵ)
Problem z dokładnymi aktualizacjami. Ponadto bardzo często zdarza się, że nie masz zamkniętej pojedynczej aktualizacji współrzędnych. Lub dokładne rozwiązanie może po prostu nie istnieć. Ale na szczęście istnieje wiele metod przeszukiwania linii, które mają w zasadzie takie same gwarancje jak dokładne rozwiązanie. Materiał ten można znaleźć w standardowych tekstach programowania nieliniowego, na przykład w wymienionych wyżej książkach Bertsekas lub Nocedal & Wright.
Zobacz drugi akapit: kiedy działają dobrze.
Po pierwsze, wiele z wyżej wspomnianych analiz pracy gradientowej dla opadania współrzędnych. Dlaczego więc nie zawsze używać opadania współrzędnych? Odpowiedź jest taka, że w przypadku wielu problemów, w których stosuje się spadek gradientu, można również zastosować metody Newtona, dla których można udowodnić lepszą zbieżność. Nie znam sposobu na uzyskanie przewagi Newtona przy zejściu ze współrzędnymi. Wysokie koszty metod Newtona można również złagodzić dzięki aktualizacjom Quasinewton (patrz na przykład LBFGS).
l0kkkkfa