Zastanawiałem się, czy zastosowanie weryfikacji krzyżowej w celu znalezienia najlepszych parametrów dostrajania różnych technik uczenia maszynowego różni się od szpiegowania danych?
Twoje obawy są słuszne, a na ten temat jest mnóstwo literatury, np
- Cawley, GC i Talbot, NLC: O nadmiernym dopasowywaniu w wyborze modelu i późniejszym odchyleniu wyboru w ocenie wydajności, Journal of Machine Learning Research, 11, 2079-2107 (2010).
- Boulesteix, A.-L .: Nadoptymizm w badaniach bioinformatycznych., Bioinformatics, 26, 437-439 (2010). DOI: 10.1093 / bioinformatics / btp648
- Jelizarów, M .; Guillemot, V .; Tenenhaus, A .; Strimmer, K. i Boulesteix, A.-L .: Nadmierny optymizm w bioinformatyce: ilustracja., Bioinformatics, 26, 1990-1998 (2010). DOI: 10.1093 / bioinformatics / btq323
Problem polega na tym, że dostrajanie hiperparametrów z weryfikacją krzyżową jest procesem optymalizacji opartym na danych i nadal będzie miał tendencję do nadmiernego dopasowywania się do zestawu danych (mniej niż dostrajanie przez błąd ponownego podstawienia, ale nadal). Próba użycia wyników weryfikacji krzyżowej dostrajania jako „niezależnej” miary wydajności jest w pewnym sensie jak zjedzenie tortu (= strojenie) i utrzymanie (= zmierzenie wydajności modelu końcowego).
Nie oznacza to, że nie należy używać weryfikacji krzyżowej do strojenia hiperparametrów. Oznacza to, że można go używać tylko do jednego celu. Zoptymalizuj lub zmierz wydajność modelu do celów sprawdzania poprawności.
Rozwiązaniem jest to, że musisz wykonać niezależną weryfikację w celu pomiaru jakości modelu uzyskanego za pomocą dostrojonych hiperparametrów. Nazywa się to zagnieżdżeniem lub podwójnym sprawdzaniem poprawności. Znajdziesz tutaj wiele pytań i odpowiedzi na te tematy
Pod względem koncepcyjnym lubię powiedzieć, że trening obejmuje wszelkiego rodzaju fantazyjne kroki, aby dopasować nie tylko „zwykłe” parametry modelu, ale także by dopasować (autostrojenie) hiperparametrów. Oparta na danych optymalizacja λ jest wyraźnie częścią szkolenia modelowego.
Zasadniczo można również powiedzieć, że szkolenie modelowe jest wszystkim, co należy zrobić, zanim będzie dostępna gotowa do użycia końcowa funkcja czarnej skrzynki, która jest w stanie wygenerować prognozy dla nowych przypadków.
PS: Uważam, że terminologia testowania kontra walidacji jest bardzo myląca, ponieważ w mojej dziedzinie „walidacja” oznacza udowodnienie, że ostateczny model jest odpowiedni do celu, a zatem to, co inni nazywają testowaniem, a nie walidacją. Wolę nazywać wewnętrzny zestaw testowy „zestawem testowym dostrajania” i zewnętrznym „zestawem testowym do ostatecznej weryfikacji” lub podobnym.
Aktualizacja:
Więc jeśli mój model (tj. W tym przypadku mój parametr strojenia) nie przejdzie zewnętrznej weryfikacji, co powinienem zrobić?
Zazwyczaj nie dzieje się tak po prostu: istnieją typowe sytuacje, które mogą spowodować taką awarię. I wszystkie takie sytuacje, o których jestem świadomy, to sytuacje zbyt trudne. Należy pamiętać, że chociaż regularyzacja pomaga zmniejszyć niezbędną liczbę przypadków szkoleniowych, optymalizacja oparta na danych wymaga dużych ilości danych.
Moje rekomendacje:
Zazwyczaj (powinieneś) mieć już surowe oczekiwania, np. Jaka wydajność powinna być osiągalna, jaką wydajność uważasz za podejrzanie ładną. Lub podaj specyfikację, jaką wydajność musisz osiągnąć i wydajność bazową. Na podstawie tego i liczby dostępnych przypadków treningowych (dla schematu podziału, na który zdecydowałeś się), obliczyć oczekiwaną niepewność dla testów wewnętrznych (tuningowych). Jeśli ta niepewność wskazuje, że nie byłoby możliwe uzyskanie znaczących porównań, nie rób optymalizacji opartej na danych.
Powinieneś sprawdzić, jak stabilne są zarówno uzyskane prognozy dla wybranego λ, jak i optymalne λ znalezione w procedurze automatycznego dostrajania. Jeśli λ nie jest wystarczająco stabilny w odniesieniu do różnych podziałów danych, optymalizacja nie działa.
Jeśli okaże się, że albo nie będziesz w stanie przeprowadzić optymalizacji opartej na danych, albo że ona w końcu nie działała, możesz wybrać λ na podstawie swojej wiedzy eksperckiej, np. Na podstawie doświadczenia z podobnymi danymi. Lub wiedząc, że jeśli dowiesz się, że optymalizacja nie powiodła się, będziesz potrzebować silniejszej regularyzacji: nadmierne dopasowanie, które prowadzi do awarii, działa w kierunku zbyt skomplikowanych modeli.