Rozumiem, jaką rolę odgrywa lambda w regresji sieci elastycznej. Rozumiem, dlaczego należy wybrać lambda.min, wartość lambda, która minimalizuje błąd zwalidowany krzyżowo.
Moje pytanie brzmi: gdzie w literaturze statystycznej zaleca się stosowanie lambda.1se, czyli takiej wartości lambda, która minimalizuje błąd CV plus jeden błąd standardowy ? Nie mogę znaleźć formalnego cytatu, ani nawet powodu, dla którego jest to często dobra wartość. Rozumiem, że jest to bardziej restrykcyjna regularyzacja i bardziej skurczę parametry do zera, ale nie zawsze jestem pewien warunków, w których lambda.1se jest lepszym wyborem niż lambda.min. Czy ktoś może pomóc wyjaśnić?