Podstawową zaletą regresji krokowej jest jej wydajność obliczeniowa. Jednak jego wydajność jest ogólnie gorsza niż metody alternatywne. Problem polega na tym, że jest zbyt chciwy. Dokonując trudnego wyboru następnego regresora i „zamrażając” wagę, dokonuje wyborów, które są lokalnie optymalne na każdym etapie, ale ogólnie nieoptymalne. I nie może wrócić do przeglądu swoich wcześniejszych wyborów.
O ile mi wiadomo, regresja krokowa ogólnie wypadła z faworyzowania w porównaniu z regulowaną l_1 (LASSO), która zwykle prowadzi do lepszych rozwiązań.l1
Tibshirani (1996) . Skurcz regresji i selekcja za pomocą Lasso
LASSO karze normę odważników, co indukuje rzadkość w roztworze (wiele odważników jest zmuszonych do zera). Dokonuje to wyboru zmiennych („odpowiednie” zmienne mogą mieć niezerowe wagi). Stopień rzadkości jest kontrolowany przez warunek karny i do jego wybrania należy zastosować pewną procedurę (powszechna jest weryfikacja krzyżowa). LASSO jest bardziej wymagający obliczeniowo niż regresja krokowa, ale istnieje wiele wydajnych algorytmów. Niektóre przykłady to regresja najmniejszego kąta ( LARS ) i podejście oparte na zniżaniu współrzędnych .l1
Podobne podejście do tego, co zasugerowałeś w (2), nazywa się dążeniem do dopasowania ortogonalnego. Jest to uogólnienie pogoni za dopasowaniem, które w literaturze poświęconej przetwarzaniu sygnałów to regresja krokowa.
Pati i in. (1993) . Pogoń za dopasowaniem ortogonalnym: aproksymacja funkcji rekurencyjnej z zastosowaniami do rozkładu falkowego
Przy każdej iteracji kolejny aktywny regressor jest dodawany do aktywnego zestawu. Następnie przeliczane są wagi wszystkich regresorów w aktywnym zestawie. Z powodu kroku zmiany wagi, to podejście jest mniej chciwe (i ma lepszą wydajność) niż regularne dopasowanie / regresja krokowa. Ale nadal stosuje chciwą heurystykę wyszukiwania.
Wszystkie te podejścia (regresja krokowa, LASSO i dążenie do dopasowania ortogonalnego) można traktować jako przybliżenia następującego problemu:
minw∥y−Xw∥22s.t. ∥w∥0≤c
W kontekście regresji kolumny odpowiadają zmiennym niezależnym, a zmiennej zależnej. W przetwarzaniu sygnału kolumny odpowiadają funkcjom podstawowym, a jest sygnałem do przybliżenia. Celem jest znalezienie rzadkiego zestawu wag który daje najlepsze przybliżenie (najmniejszych kwadratów) . norma po prostu zlicza liczbę niezerowych wpisów w . Niestety ten problem jest trudny do przeprowadzenia w NP, dlatego w praktyce należy zastosować algorytmy aproksymacyjne. Regresja krokowa i dążenie do dopasowania ortogonalnego próbuje rozwiązać problem za pomocą chciwej strategii wyszukiwania. LASSO przeformułowuje problem za pomocą relaksacjiXyXywyl0wl0 norma do normy . W tym przypadku problem optymalizacji staje się wypukły (a zatem możliwy do rozwiązania). I chociaż problem nie jest już identyczny, rozwiązanie jest podobne. Jeśli dobrze pamiętam, udowodniono, że zarówno LASSO, jak i ortogonalne dążenie do dopasowania dokładnie odzyskuje rozwiązanie w określonych warunkach.l1