Wiem, że przeprowadzanie strojenia hiperparametrów poza walidacją krzyżową może prowadzić do stronniczo wysokich oszacowań zewnętrznej ważności, ponieważ zestaw danych używany do mierzenia wydajności jest taki sam, jak użyty do dostrojenia funkcji.
Zastanawiam się, jak poważny jest to problem . Rozumiem, jak źle byłoby przy wyborze funkcji, ponieważ daje to ogromną liczbę parametrów do dostrojenia. Ale co, jeśli używasz czegoś takiego jak LASSO (który ma tylko jeden parametr, siła regularyzacji) lub losowy las bez wyboru funkcji (który może mieć kilka parametrów, ale nic tak dramatycznego, jak dodawanie / upuszczanie funkcji hałasu)?
Jak bardzo optymistycznie można się spodziewać w tych scenariuszach, że szacuje się błąd szkolenia?
Byłbym wdzięczny za wszelkie informacje na ten temat - studia przypadków, dokumenty, anegdaty itp. Dzięki!
EDYCJA: Aby wyjaśnić, nie mówię o szacowaniu wydajności modelu na danych treningowych (tj. W ogóle nie stosuję weryfikacji krzyżowej). Przez „dostrajanie hiperparametrów poza walidacją krzyżową” mam na myśli stosowanie walidacji krzyżowej tylko do oszacowania wydajności każdego indywidualnego modelu, ale nie obejmuje zewnętrznej, drugiej pętli walidacji krzyżowej w celu skorygowania nadmiernego dopasowania w ramach procedury dostrajania hiperparametrów (w odróżnieniu od nadmierne dopasowanie podczas procedury treningowej). Zobacz np . Odpowiedź tutaj .