Optymalny wybór kar dla lasso

15

Czy są jakieś wyniki analityczne lub prace eksperymentalne dotyczące optymalnego wyboru współczynnika kary karnej $\ell_1$ Przez „ optymalny” rozumiem parametr, który maksymalizuje prawdopodobieństwo wyboru najlepszego modelu lub minimalizuje oczekiwaną stratę. Pytam, ponieważ często niepraktyczne jest wybranie parametru za pomocą weryfikacji krzyżowej lub bootstrapu, albo z powodu dużej liczby przypadków problemu, albo ze względu na jego rozmiar. Jedyny pozytywny wynik, jaki znam, to Candes and Plan, prawie idealny wybór modelu poprzez minimalizację $\ell_1$ .

model-selection lasso shrinkage

— niezadowolony
źródło

2

Czy zdajesz sobie sprawę z dokumentów określających wyniki konsystencji lasso? Knight i Fu (2000), Yu i Zhao (2006) oraz różne artykuły Meinshausena.

— kardynał

Tak, ale moje pytanie nie dotyczy asymptotycznej spójności, która jest przedmiotem wspomnianych artykułów.

— szczęśliwy

1

Te artykuły dotyczą przede wszystkim spójności wyboru modelu , co, jak powiedziałbym, jest bardzo związane z pytaniem, które zadałeś. :)

— kardynał

2

Twierdzenie kasy 5.1 tego Bickel i in. . Statystycznie optymalny wybór pod względem błędów wynosi $\|y-\hat{y}(\lambda)\|_2^2$ (z dużym prawdopodobieństwem), dla stałej $\lambda = A \sigma_{\text{noise}} \sqrt{\dfrac{\log p}{n}}$ . $A > 2\sqrt{2}$

— dohmatob
źródło

To nie wydaje się całkiem pasowały gdyż wymaga znajomości

. W rzeczywistości właśnie ten problem motywuje lasso z pierwiastkiem kwadratowym ( arxiv.org/pdf/1009.5689.pdf )

σ_{n o i s e}

$\sigma_\mathrm{noise}$

— user795305

5

Rozumiem, że jesteś zainteresowany głównie w regresji, jak w cytowanym artykule, a nie inne aplikacje z $\ell_1$ kary (powiedzmy, lasso graficzne).

Uważam więc, że niektóre odpowiedzi można znaleźć w artykule „Stopnie swobody” lasso autorstwa Zou i in. W skrócie, daje formułę analityczną dla efektywnych stopni swobody , która dla kwadratu utraty błędu pozwala zastąpić CV analitycznym $C_p$ -Type statystyki mówią.

Kolejne miejsce do zobaczenia selektor Dantzig: Szacowanie statystyczne, gdy p jest znacznie większe niż n, oraz dokumenty do dyskusji w tym samym numerze Annals of Statistics. Rozumiem, że rozwiązują problem ściśle związany z regresją lasso, ale ze stałym wyborem współczynnika kary. Ale proszę również spojrzeć na dokumenty do dyskusji.

Jeśli nie jesteś zainteresowany prognozowaniem, ale wyborem modelu, nie znam podobnych wyników. Modele optymalne przewidywania często skutkują zbyt wieloma wybranymi zmiennymi w modelach regresji. W artykule Wybór stabilności Meinshausen i Bühlmann przedstawiają technikę podpróbkowania bardziej przydatną do wyboru modelu, ale może być zbyt wymagająca obliczeniowo dla twoich potrzeb.

— NRH
źródło

(+1) Wszystkie trzy artykuły są warte uważnego przeczytania dla osób zainteresowanych tym tematem. Papier selekcyjny z Dantzig ma bardzo dobrą matematykę; Jednak nie widziałem, aby zyskało dużą przyczepność w aplikacjach, i nie oczekuję tego. Myślę, że między innymi bardzo hałaśliwe ścieżki regularyjne denerwują ludzi, więc bez wyraźnej korzyści w stosunku do lasso sprawiają, że jest to trudna sprzedaż.

— kardynał

Hej, zauważ, że chociaż liczba niezerowych współczynników dla danej wartości parametru regularyzacji jest obiektywnym oszacowaniem dla DoF przy tej wartości, oszacowanie to jest bardzo dużą wariancją.

— dohmatob

1

Od czasu zadania tego pytania dokonano interesujących postępów. Weźmy na przykład ten artykuł

Chichignoud, M., Lederer, J., i Wainwright, M. (2016). Praktyczny schemat i szybki algorytm dostrajania Lasso z gwarancjami optymalności. Journal of Machine Learning Research, 17, 1–17.

Proponują metodę wyboru parametru strojenia LASSO z możliwymi do udowodnienia ograniczonymi próbkami gwarancyjnymi przy wyborze modelu. Jak mówią w artykule: „W przypadku standardowych schematów kalibracji, w tym walidacji krzyżowej, w literaturze nie ma porównywalnych gwarancji. W rzeczywistości nie jesteśmy świadomi żadnych gwarancji na skończoną próbkę dla standardowych schematów kalibracji”.

— użytkownik795305
źródło

0

To nie odpowiada na twoje pytanie, ale: przy dużym ustawieniu danych, może być dobrze dostroić regulizator za pomocą pojedynczego podziału pociąg / test, zamiast robić to około 10 razy w ramach weryfikacji krzyżowej (lub więcej dla bootstrap). Rozmiar i reprezentatywność próbki wybranej dla zestawu determinuje dokładność oszacowania optymalnego regulizatora.

Z mojego doświadczenia wynika, że utrzymywana strata jest stosunkowo płaska w znacznym zakresie regulizatora. Jestem pewien, że ten fakt może nie dotyczyć innych problemów.

— Brendan OConnor
źródło