Przeczytałem, że grupa lasso służy do wyboru zmiennych i rzadkości w grupie zmiennych. Chcę poznać intuicję tego twierdzenia.
- Dlaczego lasso grupowe jest lepsze od lasso?
- Dlaczego ścieżka rozwiązania lasso grupowe nie jest fragmentarycznie liniowa?
Przeczytałem, że grupa lasso służy do wyboru zmiennych i rzadkości w grupie zmiennych. Chcę poznać intuicję tego twierdzenia.
Odpowiedzi:
Intuicyjnie mówiąc, lasso grupowe może być preferowane od lasso, ponieważ zapewnia nam możliwość włączenia (pewnego rodzaju) dodatkowych informacji do naszego oszacowania dla prawdziwego współczynnika . Jako scenariusz ekstremalny, biorąc pod uwagę następujące kwestie:
Używając , ustaw jako wsparcie dla . Rozważ estymator „oracle” czyli lasso grupowe z dwiema grupami - jedna prawdziwa obsługa i jeden uzupełnienie. Niech będzie najmniejszą wartością która sprawia, że . Ze względu na charakter grupowej kary lasso wiemy, że w przenosi się z do (dla niektórych małychS = { j : β * j ≠ 0 } β * β = Arg min β ‖ Y - X β ‖ 2 2 + λ ( | S | 1 / 2 ‖ β S ‖ 2 + ( p - | S | )λ m o x x p =0x
W praktyce nie wybieramy tak dobrze grup. Jednak grupy, mimo że są lepsze niż w ekstremalnym scenariuszu powyżej, nadal nam pomogą: nadal będzie dokonywany wybór między grupą prawdziwych zmiennych towarzyszących i grupą nieprawdziwych zmiennych towarzyszących. Wciąż pożyczamy siłę.
Jest to tutaj sformalizowane . Pokazują one, pod pewnymi warunkami, że górna granica błędu prognozowania lasso grupowego jest niższa niż dolna granica błędu prognozowania zwykłego lasso. Oznacza to, że udowodnili, że dzięki grupowaniu nasze szacunki są lepsze.
W przypadku drugiego pytania: (zwykła) kara lasso jest fragmentarycznie liniowa, co daje początek częściowej liniowej ścieżce rozwiązania. Intuicyjnie, w przypadku lassa grupowego, kara nie jest już podzielona liniowo, więc nie mamy już tej właściwości. Świetne odniesienie do fragmentarycznej liniowości ścieżek rozwiązania znajduje się tutaj . Zobacz ich propozycję 1. Niech i . Pokazują, że ścieżka rozwiązania lasso grupy jest liniowa wtedy i tylko wtedy, gdy jest częściowo stała. Oczywiście nie jest tak, ponieważ nasza kara ma globalną krzywiznę.
Odpowiedź Bena to najbardziej ogólny wynik. Jednak intuicyjna odpowiedź na OP jest uzasadniona przypadkiem predyktorów jakościowych, które zwykle są kodowane jako wiele zmiennych zastępczych: po jednej dla każdej kategorii. W wielu analizach sensowne jest rozważanie tych zmiennych zastępczych (reprezentujących jeden predyktor jakościowy) razem, a nie osobno.
Jeśli masz zmienną kategorialną z, powiedzmy, pięcioma poziomami, prosty lasso może zostawić dwa wejścia i trzy wyjścia. Jak sobie z tym poradzić w sposób zasadowy? Zdecydować się głosować? Dosłownie użyć zmiennych zastępczych zamiast bardziej znaczących kategorii? W jaki sposób kodowanie pozorne wpływa na twoje wybory?
Jak mówią we wprowadzeniu Lasso grupowe dla regresji logistycznej , wspomina:
Już w przypadku szczególnego przypadku regresji liniowej, gdy obecne są nie tylko ciągłe, ale również jakościowe predyktory (czynniki), rozwiązanie lasso nie jest zadowalające, ponieważ wybiera tylko indywidualne zmienne zastępcze zamiast całych czynników. Ponadto rozwiązanie lasso zależy od sposobu kodowania zmiennych fikcyjnych. Wybranie różnych kontrastów dla predyktora jakościowego zapewni ogólnie różne rozwiązania.
Jak zauważa Ben, między predyktorami istnieją również bardziej subtelne powiązania, które mogą wskazywać, że powinny one znajdować się razem lub na zewnątrz. Ale zmienne kategoryczne są potomkiem plakatu dla grupowego lasso.