Używanie LASSO tylko do wyboru funkcji

10

Podczas mojej lekcji uczenia maszynowego dowiedzieliśmy się, jak regresja LASSO jest bardzo dobra w wykonywaniu wyboru funkcji, ponieważ wykorzystuje regulację . $l_1$

Moje pytanie: czy ludzie zwykle używają modelu LASSO tylko do dokonywania wyboru funkcji (a następnie kontynuują zrzucanie tych funkcji do innego modelu uczenia maszynowego), czy zwykle używają LASSO do wykonania zarówno wyboru funkcji, jak i faktycznej regresji?

Załóżmy na przykład, że chcesz wykonać regresję grzbietu, ale uważasz, że wiele z twoich funkcji nie jest zbyt dobrych. Czy rozsądnie byłoby uruchomić LASSO, wziąć tylko te funkcje, które nie są prawie zerowane przez algorytm, a następnie użyć tylko tych, aby zrzucić dane do modelu regresji grzbietu? W ten sposób zyskujesz celu dokonania wyboru funkcji, ale także celu zmniejszenia nadmiernego dopasowania. (Wiem, że to w zasadzie oznacza regresję elastycznej sieci, ale wygląda na to, że nie musisz mieć zarówno i w funkcji celu regresji końcowej.) $l_1$ $l_2$ $l_1$ $l_2$

Czy oprócz regresji jest to mądra strategia podczas wykonywania zadań klasyfikacyjnych (przy użyciu maszyn SVM, sieci neuronowych, losowych lasów itp.)?

feature-selection lasso regression-strategies

— Ryan
źródło

1

Tak, użycie lasso do wyboru funkcji w innych modelach jest dobrym pomysłem. Alternatywnie wybór funkcji opartych na drzewach można również wprowadzić do innych modeli

— karthikbharadwaj

1

Lasso dokonuje wyboru funkcji tylko w modelach liniowych - nie testuje interakcji wyższego rzędu ani nieliniowości w predyktorach. Na przykład, jak to może być ważne: stats.stackexchange.com/questions/164048/… Twój przebieg może się różnić.

— Sycorax mówi: Przywróć Monikę

11

Prawie każde podejście, które dokonuje jakiejś formy wyboru modelu, a następnie przeprowadza dalsze analizy, tak jakby wcześniej nie dokonano wyboru modelu, zwykle ma niewielkie proporcje. O ile nie istnieją przekonujące argumenty teoretyczne poparte dowodami z np. Obszernych badań symulacyjnych dla realistycznych rozmiarów próbek i proporcji cech w stosunku do wielkości próby w celu wykazania, że jest to wyjątek, prawdopodobne jest, że takie podejście będzie miało niezadowalające właściwości. Nie znam żadnych takich pozytywnych dowodów na to podejście, ale może ktoś inny. Biorąc pod uwagę, że istnieją rozsądne alternatywy, które pozwalają osiągnąć wszystkie pożądane cele (np. Elastyczna siatka), takie podejście jest trudne do uzasadnienia za pomocą takiego podejrzanego podejścia ad hoc.

— Björn
źródło

3

uzgodniono ... chodzi o to, że wszystko musi się zmieścić w ramach systemu weryfikacji krzyżowej ... więc powinieneś przeprowadzić zagnieżdżoną weryfikację krzyżową, aby wykonać dwie osobne regularyzacje (w przeciwnym razie wystąpią problemy), a zagnieżdżona weryfikacja krzyżowa zużywa mniej danych dla każda część.

— seanv507

1

Oprócz wszystkich powyższych odpowiedzi: Możliwe jest obliczenie dokładnego testu permutacji chi2 dla tabel 2x2 i rxc. Zamiast porównywać naszą obserwowaną wartość statystyki chi-kwadrat z asymptotycznym rozkładem chi-kwadrat, musimy porównać go z dokładnym rozkładem permutacji. Musimy permutować nasze dane na wszystkie możliwe sposoby, utrzymując stały margines wiersza i kolumny. Dla każdego permutowanego zestawu danych obliczyliśmy statystyki chi2. Następnie porównujemy nasze zaobserwowane chi2 ze (posortowanymi) statystykami chi2 Ranking rzeczywistej statystyki testu wśród permutowanych statystyk testu chi2 daje wartość p.

— Stats_Monkey
źródło

Czy możesz podać szczegóły swojej odpowiedzi? W obecnej formie nie jest jasne, jak obliczyć dokładny test chi2.

— Antoine Vernet,