Metody te - lasso i elastyczna siatka - zrodziły się z problemów zarówno wyboru cech, jak i prognozowania. Sądzę, że dzięki tym dwóm soczewkom można znaleźć wyjaśnienie.
Matthew Gunn ładnie wyjaśnia w swojej odpowiedzi, że te dwa cele są różne i często podejmowane przez różnych ludzi. Jednak na szczęście dla nas metody, którymi jesteśmy zainteresowani, mogą działać dobrze na obu arenach.
Wybór funkcji
Najpierw porozmawiajmy o wyborze funkcji. Najpierw powinniśmy zmotywować elastyczną siatkę z perspektywy lasso. To znaczy, cytując Hastie i Zou , „Jeśli istnieje grupa zmiennych, wśród których korelacje par są bardzo wysokie, wówczas lasso ma tendencję do wybierania tylko jednej zmiennej z grupy i nie ma znaczenia, która z nich jest wybrana”. Jest to na przykład problem, ponieważ oznacza, że prawdopodobnie nie znajdziemy elementu prawdziwego wsparcia za pomocą lasso - tylko jednego wysoce z nim skorelowanego. (Artykuł wspomina, że jest to udowodnione w artykule LARS, którego jeszcze nie przeczytałem). Trudność odzyskania wsparcia w obecności korelacji jest również wskazana przez Wainwrighta ,0,5 gdy istnieje wysoka korelacja między prawdziwym wsparciem a jego uzupełnieniem.
Teraz kara 12 w siatce elastycznej zachęca cechy, których współczynniki są traktowane jako nierozróżnialne przez samą stratę i kara 11 do równego oszacowanego współczynnika. Możemy to swobodnie dostrzec, zauważając, że spełnia. Z tego powodu elastyczna siatka sprawia, że jesteśmy mniej skłonni do „przypadkowego” uczynienia zniknięcia współczynnikiem szacunkowym, który jest prawdziwym wsparciem. Oznacza to, że prawdziwe wsparcie jest bardziej prawdopodobne w ramach szacowanego wsparcia. Dobre! To oznacza, że jest więcej fałszywych odkryć, ale jest to cena, którą większość ludzi jest skłonna zapłacić.| a | = | b |( a , b ) = argminza′, b′: c = | za′| + | b′|( a′)2)+ ( b′)2)| a | = | b |
Nawiasem mówiąc, warto zauważyć, że fakt, iż wysoce skorelowane cechy będą miały bardzo podobne oszacowania współczynników, sprawia, że możemy wykrywać grupy cech w ramach szacowanego wsparcia, które wpływają podobnie na odpowiedź.
Prognoza
Teraz przechodzimy do przewidywania. Jak zauważa Matthew Gunn, wybór parametrów dostrajania poprzez krzyżową weryfikację stwarza cel wyboru modelu z minimalnym błędem prognozowania. Ponieważ dowolny model wybrany przez lasso można wybrać za pomocą elastycznej siatki (przyjmując ), sensowne jest, że elastyczna siatka jest w stanie znaleźć model, który przewiduje lepiej niż lasso.α = 1
Lederer, Yu i Gaynanova pokazują, bez żadnych założeń dotyczących cech, że zarówno lasso, jak i elastyczna siatka mogą mieć błąd przewidywania l2 ograniczony tą samą wielkością. Niekoniecznie jest prawdą, że ich granica jest ścisła, ale może to być interesujące zauważyć, ponieważ nierówności w wyroczniach wydają się być standardowym sposobem w literaturze statystycznej do kwantyfikacji wydajności predykcyjnej estymatorów - być może, ponieważ rozkłady są tak skomplikowane! Warto również zauważyć, że Lederer (1) (2) ma kilka artykułów na temat prognoz lasso w obecności skorelowanych cech.
streszczenie
Podsumowując, problemami interesującymi są prawdziwe wsparcie mieszczące się w szacunkowym wsparciu i prognozie. Aby odzyskać wsparcie, istnieją ściśle potwierdzone gwarancje (przez Wainwrighta), że lasso wybiera prawidłowe cechy, które mają być w modelu, przy założeniu niskiej korelacji między prawdziwym wsparciem a jego uzupełnieniem. Jednak w obecności korelacji możemy wrócić do elastycznej siatki, aby zwiększyć prawdopodobieństwo wyboru funkcji w prawdziwym wsparciu, które znajdują się wśród wszystkich wybranych przez siebie elementów. (Zauważ, że musimy tutaj starannie wybrać parametry strojenia.) I, dla przewidywania, kiedy wybieramy parametr strojenia poprzez krzyżową walidację, intuicyjne wydaje się, że elastyczna siatka powinna działać lepiej niż lasso - szczególnie w obecności korelacji .
Odkładając na bok przewidywania i pewne formalności, czego się nauczyliśmy? Dowiedzieliśmy się o prawdziwym wsparciu.
Przedziały ufności
Warto zauważyć, że wiele zmieniło się w ciągu ostatnich 2 lat w odniesieniu do prawidłowego wnioskowania o lasso. W szczególności praca Lee, Sun, Sun i Taylor zapewnia dokładne wnioskowanie o współczynnikach lasso zależnych od wybranego modelu. (Wyniki wnioskowania w lasso dla prawdziwych współczynników były w okolicy postu OP i są dobrze podsumowane w powiązanym dokumencie.)