Zejście współrzędnych aktualizuje jeden parametr na raz, podczas gdy zejście gradientu próbuje zaktualizować wszystkie parametry jednocześnie.
Trudno dokładnie określić , kiedy jeden algorytm będzie działał lepiej od drugiego. Na przykład byłem bardzo zszokowany, gdy dowiedziałem się, że zejście ze współrzędnymi było najnowszym osiągnięciem LASSO. I nie byłem jedyny; patrz slajd 17 .
To powiedziawszy, istnieją pewne cechy, które mogą sprawić, że problem będzie bardziej poprawny w celu koordynowania zniżania:
(1) Szybkie aktualizacje warunkowe. Jeśli z jakiegoś powodu problem pozwala na bardzo szybką indywidualną optymalizację parametrów, może to wykorzystać opadanie współrzędnych. Na przykład można zaktualizować niektóre parametry, używając tylko podzbioru danych, co znacznie zmniejsza koszty obliczeniowe tych aktualizacji. Innym przypadkiem jest rozwiązanie formy zamkniętej dla pojedynczego parametru, zależnie od wartości wszystkich pozostałych parametrów.
(2) Względnie niezależne tryby parametrów. Jeśli optymalna wartość jednego parametru jest całkowicie niezależna od innych wartości parametrów, wówczas jedna runda opadania współrzędnych doprowadzi do rozwiązania (zakładając, że każda aktualizacja współrzędnych znajdzie aktualny tryb). Z drugiej strony, jeśli tryb dla danego parametru jest bardzo silnie zależny od innych wartości parametru, bardzo prawdopodobne jest, że zejście współrzędnych będzie się zmieniać wraz z bardzo małymi aktualizacjami w każdej rundzie.
Niestety, w przypadku większości problemów (2) nie ma zastosowania, więc rzadkie jest, że opadanie współrzędnych dobrze porównuje alternatywne algorytmy. Uważam, że powodem, dla którego działa on dobrze dla LASSO, jest to, że istnieje wiele sztuczek, których można użyć do wprowadzenia warunku (1).
α