Jak złe jest strojenie hiperparametrów poza walidacją krzyżową?

20

Wiem, że przeprowadzanie strojenia hiperparametrów poza walidacją krzyżową może prowadzić do stronniczo wysokich oszacowań zewnętrznej ważności, ponieważ zestaw danych używany do mierzenia wydajności jest taki sam, jak użyty do dostrojenia funkcji.

Zastanawiam się, jak poważny jest to problem . Rozumiem, jak źle byłoby przy wyborze funkcji, ponieważ daje to ogromną liczbę parametrów do dostrojenia. Ale co, jeśli używasz czegoś takiego jak LASSO (który ma tylko jeden parametr, siła regularyzacji) lub losowy las bez wyboru funkcji (który może mieć kilka parametrów, ale nic tak dramatycznego, jak dodawanie / upuszczanie funkcji hałasu)?

Jak bardzo optymistycznie można się spodziewać w tych scenariuszach, że szacuje się błąd szkolenia?

Byłbym wdzięczny za wszelkie informacje na ten temat - studia przypadków, dokumenty, anegdaty itp. Dzięki!

EDYCJA: Aby wyjaśnić, nie mówię o szacowaniu wydajności modelu na danych treningowych (tj. W ogóle nie stosuję weryfikacji krzyżowej). Przez „dostrajanie hiperparametrów poza walidacją krzyżową” mam na myśli stosowanie walidacji krzyżowej tylko do oszacowania wydajności każdego indywidualnego modelu, ale nie obejmuje zewnętrznej, drugiej pętli walidacji krzyżowej w celu skorygowania nadmiernego dopasowania w ramach procedury dostrajania hiperparametrów (w odróżnieniu od nadmierne dopasowanie podczas procedury treningowej). Zobacz np . Odpowiedź tutaj .

cross-validation validation hyperparameter

— Ben Kuhn
źródło

17

Skutki tego uprzedzenia mogą być bardzo świetne. Dobrym tego przykładem są otwarte konkursy uczenia maszynowego, które biorą udział w niektórych konferencjach dotyczących uczenia maszynowego. Na ogół mają one zestaw szkoleniowy, zestaw walidacyjny i zestaw testowy. Zawodnicy nie widzą etykiet ani zestawu sprawdzania poprawności, ani zestawu testowego (oczywiście). Zestaw walidacyjny służy do ustalenia rankingu konkurentów na tablicy wyników, które każdy może zobaczyć podczas trwania zawodów. Bardzo często osoby na czele tabeli liderów pod koniec zawodów są bardzo nisko w końcowym rankingu na podstawie danych testowych. Wynika to z tego, że dostrajali hiper-parametry swoich systemów uczenia się, aby zmaksymalizować ich wydajność na tablicy wyników, a tym samym zawyżili dane dotyczące walidacjiprzez tuningowanie ich modelu. Bardziej doświadczeni użytkownicy nie zwracają uwagi na tabelę wyników lub nie zwracają na nią uwagi, i przyjmują bardziej rygorystyczne obiektywne szacunki wydajności, aby kierować swoją metodologią.

Przykład w moim artykule (wspomniany przez Jacquesa) pokazuje, że skutki tego rodzaju stronniczości mogą być tego samego rodzaju, co różnica między algorytmami uczenia się, więc krótka odpowiedź nie jest używana z tendencyjnych protokołów oceny wydajności, jeśli jesteś naprawdę zainteresowany odkrywaniem tego, co działa, a co nie. Podstawową zasadą jest „traktowanie wyboru modelu (np. Strojenie hiperparametrów) jako integralnej części procedury dopasowania modelu i uwzględnianie go w każdym krotności walidacji krzyżowej stosowanej do oceny wyników).

Fakt, że regularyzacja jest mniej podatna na nadmierne dopasowanie niż wybór funkcji, jest właśnie przyczyną, dla której LASSO itp. Są dobrym sposobem dokonywania wyboru funkcji. Jednak rozmiar odchylenia zależy od liczby funkcji, rozmiaru zestawu danych i charakteru zadania uczenia się (tzn. Istnieje element, który zależy od konkretnego zestawu danych i będzie się różnił w zależności od aplikacji). Zależny od danych charakter tego oznacza, że lepiej jest oszacować wielkość odchylenia za pomocą bezstronnego protokołu i porównać różnicę (raportowanie, że metoda jest odporna na nadmierne dopasowanie w wyborze modelu, w tym konkretnym przypadku może być interesujące w sobie).

GC Cawley i NLC Talbot (2010), „Nadmierne dopasowanie w wyborze modelu i późniejsze uprzedzenie wyboru w ocenie wydajności”, Journal of Machine Learning Research, 11, s. 2079, sekcja 5.2.)

— Dikran Torbacz
źródło

7

Odchylenie, o którym mówisz, jest nadal związane głównie z nadmiernym dopasowaniem.
Możesz utrzymać to ryzyko na niskim poziomie, oceniając tylko kilka modeli w celu ustalenia hiperparametru regularyzacji, a także wybierając niską złożoność w ramach możliwego wyboru.
Jak zauważa @MarcClaesen, masz do czynienia z krzywą uczenia się, która nieco złagodzi uprzedzenia. Ale krzywa uczenia się jest zazwyczaj stroma tylko w nielicznych przypadkach, a następnie przeuczenie jest znacznie większym problemem.

W końcu spodziewam się, że stronniczość będzie w dużej mierze zależna

dane (ciężko jest prześcignąć jednoznaczny problem ...) i
twoje doświadczenie i zachowanie w zakresie modelowania: Myślę, że możliwe jest, że zdecydujesz się na mniej więcej odpowiednią złożoność swojego modelu, jeśli masz wystarczające doświadczenie zarówno z typem modelu, jak i aplikacją oraz jeśli jesteś wyjątkowo dobrze wychowany i nie poddajesz się pokusa dla bardziej złożonych modeli. Ale oczywiście nie znamy cię i dlatego nie możemy ocenić, jak konserwatywne jest twoje modelowanie.
Ponadto przyznanie, że twój fantazyjny model statystyczny jest wysoce subiektywny i nie masz już przypadków na sprawdzenie poprawności, zwykle nie jest tym, czego chcesz. (Nawet w sytuacjach, w których oczekuje się, że ogólny wynik będzie lepszy).

Nie używam LASSO (ponieważ wybór zmiennych nie ma większego sensu dla moich danych z przyczyn fizycznych), ale PCA lub PLS zwykle działają dobrze. Grzbiet byłby alternatywą zbliżoną do LASSO i bardziej odpowiednią dla rodzaju danych. Z tymi danymi widziałem rząd wielkości więcej błędnych klasyfikacji „walidacji skrótów” w porównaniu do właściwej niezależnej (zewnętrznej) walidacji krzyżowej. Jednak w tych ekstremalnych sytuacjach moje doświadczenie mówi, że sprawdzanie poprawności skrótów wyglądało podejrzanie dobrze, np. 2% błędnych klasyfikacji => 20% przy odpowiedniej weryfikacji krzyżowej.

Nie mogę jednak podać liczb rzeczywistych, które dotyczą bezpośrednio twojego pytania:

Do tej pory bardziej zależało mi na innych rodzajach „skrótów”, które zdarzają się w mojej dziedzinie i prowadzą do wycieków danych, np. Spektrum walidacji krzyżowej zamiast pacjentów (ogromne odchylenie! Mogę pokazać 10% błędnej klasyfikacji -> 70% = zgadywanie wśród 3 klasy) lub bez uwzględnienia PCA w walidacji krzyżowej (2–5% -> 20–30%).
W sytuacjach, w których muszę zdecydować, czy jedna krzyżowa walidacja, na jaką mnie stać, powinna zostać wydana na optymalizację modelu, czy na walidację, zawsze decyduję się na walidację i ustalam parametr złożoności na podstawie doświadczenia. PCA i PLS działają dobrze, a techniki regularyzacji są zgodne z tym szacunkiem, ponieważ parametr złożoności (# składników) jest bezpośrednio związany z właściwościami fizycznymi / chemicznymi problemu (np. Mogę się domyślić, ile chemicznie różnych grup substancji spodziewałem się). Ponadto z przyczyn fizyko-chemicznych wiem, że składniki powinny wyglądać podobnie do widm, a jeśli są głośne, to jestem zbyt mocny. Ale doświadczenie może również optymalizować złożoność modelu na starym zestawie danych z poprzedniego eksperymentu, który jest na ogół wystarczająco podobny, aby uzasadnić przeniesienie hiperparametrów, a następnie po prostu użyćparametr regularyzacji dla nowych danych.
W ten sposób nie mogę twierdzić, że mam optymalny model, ale mogę twierdzić, że mam rozsądną ocenę wydajności, którą mogę uzyskać.
A z liczbą pacjentów, którą mam, w każdym razie niemożliwe jest dokonywanie statystycznie znaczących porównań modeli (pamiętaj, że mój całkowity numer pacjenta jest poniżej zalecanej wielkości próbki do oszacowania pojedynczej proporcji [zgodnie z zasadą podaną tutaj przez @FrankHarrell]).

Dlaczego nie uruchomisz symulacji, które są jak najbardziej zbliżone do twoich danych i poinformujesz nas, co się stanie?

O moich danych: pracuję z danymi spektroskopowymi. Zestawy danych są zazwyczaj szerokie: kilkadziesiąt niezależnych przypadków (pacjenci; chociaż zwykle wiele pomiarów na przypadek. Około 10³ zmienia się w surowych danych, co mogę zmniejszyć do 250, stosując wiedzę domenową do wycinania nieinformacyjnych obszarów z moich widm i aby zmniejszyć rozdzielczość spektralną.

— cbeleites wspiera Monikę
źródło

5

Jeśli wybierasz tylko hiperparametr dla LASSO, nie ma potrzeby zagnieżdżonego CV. Wyboru hiperparametrów dokonuje się w interakcji pojedynczego / płaskiego CV.

$\lambda$

$L_i$ $T_i$ $\lambda^*$ $T_i$ $L_i$

$\lambda^*$

(Nie jest to jedyna metoda wybierania hiperparametrów, ale jest ona najczęstsza - istnieje również procedura „mediany” omawiana i krytykowana przez GC Cawleya i NLC Talbot (2010), „Nadmierne dopasowanie w wyborze modelu i późniejsze nastawienie selekcji w ocenie wydajności ”, Journal of Machine Learning Research, 11 , s. 2079 , sekcja 5.2.)

$\lambda^*$ $\lambda^*$

Znam dwa wyniki eksperymentalne w pomiarze błędu wstępnego tego oszacowania (w porównaniu do prawdziwego błędu uogólnienia dla syntetycznych zestawów danych)

powyżej papier Cawley i Talbot
Varna i Simon (2006), „Błąd systematyczny w szacowaniu błędów przy stosowaniu walidacji krzyżowej do wyboru modelu”, BMC Bioinformatics , 7 , 91.

oba otwarte.

Potrzebujesz zagnieżdżonego CV, jeśli:

a) chcesz wybierać między LASSO a niektórymi innymi algorytmami, szczególnie jeśli mają one również hiperparametry

$\lambda^*$

$\lambda ^*$

Wreszcie, zagnieżdżone CV nie jest jedynym sposobem obliczenia rozsądnego obiektywnego oszacowania oczekiwanego błędu uogólnienia. Zgłoszono co najmniej trzy inne propozycje

Ding i in. Korekta odchylenia przy wyborze klasyfikatora błędu minimalnego z wielu modeli uczenia maszynowego BioInformatics 30 (22) ma jedną propozycję i porównuje ją z dwiema innymi: średnią ważoną korektą i procedurą Tibshirani-Tibshirani (patrz odnośniki w artykule)

— Jacques Wainer
źródło

2

Czy możesz wyjaśnić, co rozumiesz przez „nie ma CV do wyboru hiperparametrów”? Z tego, co piszesz, nie rozumiem, czy chcesz ostrzec PO, że nie wykonali zagnieżdżenia, czy też twierdzisz, że generalnie nic takiego nie istnieje.

— cbeleites obsługuje Monikę

(+1) za zwięzłe wyjaśnienie problemu i dobre referencje. Ale, jak wskazuje @cbeleites, pierwsze zdanie jest dość mylące: wydaje się, że ma ono na celu skorygowanie nieporozumienia, którego nie ma OP.

— Scortchi - Przywróć Monikę

@cbeleites (i Scortchi) - odpowiadam na PO „EDYCJA:”, gdzie (jak sądzę) twierdzi, że używa CV do wyboru parametrów („walidacja krzyżowa tylko w celu oszacowania wydajności każdego indywidualnego modelu”) i obawia się, że nie użył zagnieżdżonego CV („ale nie zawiera zewnętrznej, drugiej pętli weryfikacji krzyżowej w celu skorygowania nadmiernego dopasowania w ramach procedury dostrajania hiperparametrów”). Próbowałem mu powiedzieć, że przy wyborze parametrów nie ma zewnętrznego CV.

— Jacques Wainer,

@JacquesWainer: Uważam, że chce „poprawić korekcję w ramach procedury dostrajania hiperparametrów” podczas szacowania wydajności procedury poza próbą (twoja sytuacja b ), zamiast w jakiś sposób poprawić wybraną wartość hiperparametru za pomocą zagnieżdżonego CV. W każdym razie Twoja edycja czyni początek odpowiedzi wyraźniejszym.

— Scortchi - Przywróć Monikę

Tak, miałem na myśli „skorygować [naiwne oszacowanie wydajności] pod kątem dopasowania w ramach procedury dostrajania hiperparametrów”, a nie „poprawić [dostrojone hiperparametry] pod kątem dopasowania” lub coś w tym rodzaju. Przepraszam za zamieszanie; Powinienem był bardziej wyraźnie stwierdzić, że martwiłem się oszacowaniem błędu, a nie wyborem parametrów.

— Ben Kuhn

2

Każdy złożony algorytm uczenia się, taki jak SVM, sieci neuronowe, losowy las, ... może osiągnąć 100% dokładności szkolenia, jeśli na to pozwolisz (na przykład przez słabą / brak regularyzacji), z absolutnie okropną wydajnością generalizacji.

$\kappa(\mathbf{x}_i,\mathbf{x}_j) = \exp(-\gamma\|\mathbf{x}_i-\mathbf{x}_j\|^2)$ $\gamma=\infty$ $100\%$

Krótko mówiąc, możesz łatwo skończyć z doskonałym klasyfikatorem w zestawie treningowym, który nauczył się absolutnie niczego przydatnego na niezależnym zestawie testowym. Tak to jest złe.

— Marc Claesen
źródło

Nie mówię o szkoleniu modelu poza cross-validation. Mówię o dostrajaniu hiperparametrów (i nadal używam weryfikacji krzyżowej do oszacowania wydajności każdego zestawu hiperparametrów). Zmienię post, aby to wyjaśnić.

— Ben Kuhn

100 %

$100\%$

Jak myślisz, dlaczego zastanawiam się nad niestosowaniem weryfikacji krzyżowej? Powiedziałem konkretnie: „... i nadal używam weryfikacji krzyżowej do oszacowania wydajności każdego zestawu hiperparametrów”.

— Ben Kuhn

1

γ = \infty

$\gamma = \infty$

γ

$\gamma$

γ

$\gamma$

2

Całkowicie źle zrozumiałem twoje pytanie. Przed edycją było to bardzo mylące. Nawiasem mówiąc, uprzedzenia, którymi wydajesz się być zainteresowany, niekoniecznie są pozytywne; ponieważ wiele podejść daje zdecydowanie lepsze modele, gdy podaje się więcej danych treningowych, co jest szczególnie istotne w przypadku małych zestawów treningowych + walidacja krzyżowa.

— Marc Claesen,