Jakie są zalety regresji stopniowej?

11

W moim podejściu do problemu eksperymentuję z regresją krokową ze względu na różnorodność. Mam więc 2 pytania:

Jakie są zalety regresji stopniowej? Jakie są jego szczególne zalety?
Co sądzisz o podejściu hybrydowym, w którym używasz regresji krokowej, aby wybierać funkcje, a następnie stosujesz regresję regularną, biorąc wszystkie wybrane funkcje razem?

regression feature-selection stepwise-regression

— Baron Jugowicz
źródło

15

Podstawową zaletą regresji krokowej jest jej wydajność obliczeniowa. Jednak jego wydajność jest ogólnie gorsza niż metody alternatywne. Problem polega na tym, że jest zbyt chciwy. Dokonując trudnego wyboru następnego regresora i „zamrażając” wagę, dokonuje wyborów, które są lokalnie optymalne na każdym etapie, ale ogólnie nieoptymalne. I nie może wrócić do przeglądu swoich wcześniejszych wyborów.

O ile mi wiadomo, regresja krokowa ogólnie wypadła z faworyzowania w porównaniu z regulowaną l_1 (LASSO), która zwykle prowadzi do lepszych rozwiązań. $l_1$

Tibshirani (1996) . Skurcz regresji i selekcja za pomocą Lasso

LASSO karze normę odważników, co indukuje rzadkość w roztworze (wiele odważników jest zmuszonych do zera). Dokonuje to wyboru zmiennych („odpowiednie” zmienne mogą mieć niezerowe wagi). Stopień rzadkości jest kontrolowany przez warunek karny i do jego wybrania należy zastosować pewną procedurę (powszechna jest weryfikacja krzyżowa). LASSO jest bardziej wymagający obliczeniowo niż regresja krokowa, ale istnieje wiele wydajnych algorytmów. Niektóre przykłady to regresja najmniejszego kąta ( LARS ) i podejście oparte na zniżaniu współrzędnych . $l_1$

Podobne podejście do tego, co zasugerowałeś w (2), nazywa się dążeniem do dopasowania ortogonalnego. Jest to uogólnienie pogoni za dopasowaniem, które w literaturze poświęconej przetwarzaniu sygnałów to regresja krokowa.

Pati i in. (1993) . Pogoń za dopasowaniem ortogonalnym: aproksymacja funkcji rekurencyjnej z zastosowaniami do rozkładu falkowego

Przy każdej iteracji kolejny aktywny regressor jest dodawany do aktywnego zestawu. Następnie przeliczane są wagi wszystkich regresorów w aktywnym zestawie. Z powodu kroku zmiany wagi, to podejście jest mniej chciwe (i ma lepszą wydajność) niż regularne dopasowanie / regresja krokowa. Ale nadal stosuje chciwą heurystykę wyszukiwania.

Wszystkie te podejścia (regresja krokowa, LASSO i dążenie do dopasowania ortogonalnego) można traktować jako przybliżenia następującego problemu:

min_{w} ‖ y - X w ‖_{2}^{2} s.t. ‖ w ‖_{0} \leq c

$\underset{w}{\min} \| y - X w \|_2^2 \quad \text{s.t. } \|w\|_0 \le c$

W kontekście regresji kolumny odpowiadają zmiennym niezależnym, a zmiennej zależnej. W przetwarzaniu sygnału kolumny odpowiadają funkcjom podstawowym, a jest sygnałem do przybliżenia. Celem jest znalezienie rzadkiego zestawu wag który daje najlepsze przybliżenie (najmniejszych kwadratów) . norma po prostu zlicza liczbę niezerowych wpisów w . Niestety ten problem jest trudny do przeprowadzenia w NP, dlatego w praktyce należy zastosować algorytmy aproksymacyjne. Regresja krokowa i dążenie do dopasowania ortogonalnego próbuje rozwiązać problem za pomocą chciwej strategii wyszukiwania. LASSO przeformułowuje problem za pomocą relaksacji $X$ $y$ $X$ $y$ $w$ $y$ $l_0$ $w$ $l_0$ norma do normy . W tym przypadku problem optymalizacji staje się wypukły (a zatem możliwy do rozwiązania). I chociaż problem nie jest już identyczny, rozwiązanie jest podobne. Jeśli dobrze pamiętam, udowodniono, że zarówno LASSO, jak i ortogonalne dążenie do dopasowania dokładnie odzyskuje rozwiązanie w określonych warunkach. $l_1$

— user20160
źródło

8

Wybór stopniowy nie jest na ogół dobrym pomysłem. Aby zrozumieć dlaczego, może pomóc ci przeczytać moją odpowiedź tutaj: Algorytmy automatycznego wyboru modelu .

Jeśli chodzi o zalety, w czasach, gdy przeszukiwanie wszystkich możliwych kombinacji funkcji było zbyt intensywne obliczeniowo, aby poradzić sobie z komputerami, stopniowe wybieranie oszczędzało czas i było wykonalne. Zauważ jednak, że problemy omówione w mojej powyższej połączonej odpowiedzi dotyczą tak samo regresji „najlepszego podzbioru”, więc krok po kroku nie daje dobrego rozwiązania, a jedynie złe rozwiązanie szybciej.

Twój pomysł na podejście hybrydowe byłby w porządku, o ile drugi model (z wybranymi funkcjami) został zamontowany w nowym zestawie danych .

— gung - Przywróć Monikę
źródło

Jeśli chodzi o to, co OP nazwał „podejściem hybrydowym” (nie do końca wiadomo, dlaczego jest to hybryda), masz na myśli, że jest w porządku w tym sensie, że szacunki współczynników modelu dla drugiego nowego zestawu danych powinny być prawidłowe (choć stronnicze i problematyczne w przypadku oryginalne dane), o ile nowy zestaw danych jest wystarczająco duży? Byłby to oczywiście zły model, ponieważ został źle wybrany w pierwszym zbiorze danych, po prostu jego współczynniki zostałyby oszacowane w mniej problematycznym zbiorze danych.

— Björn

Ponadto wciąż często niemożliwe jest przejrzenie wszystkich możliwych kombinacji, ponieważ liczba różnych zmiennych, o których dane mamy, rośnie nawet szybciej niż moc obliczeniowa, a ludzie mają coraz więcej pomysłów na to, co uwzględnić w swoich modelach.

— Stephan Kolassa

Czytanie tego wątku nadal nie jest pomocne.

— Mox

2

Właśnie przeszukałem wyszukiwarkę Google dotyczącą regresji krokowej. Nie jestem pewien, czy w pełni to rozumiem, ale oto moja pierwsza myśl

Jest chciwy, więc nie może dać dobrego rozwiązania, jak to robi Lasso. Wolę Lasso
Jest prosty, łatwy w użyciu, łatwy do kodowania
Po skorzystaniu z regresji krokowej już skończyłeś z wyszkolonym modelem, który korzysta z wybranych funkcji, więc nie musisz używać innego kroku regresji, jak wspomniano jako podejście hybrydowe

— Angry Imbecile
źródło