Nieprawidłowe stosowanie weryfikacji krzyżowej (raportowanie wydajności dla najlepszej wartości hiperparametru)

Ostatnio natknąłem się na artykuł, który proponuje użycie klasyfikatora k-NN w określonym zbiorze danych. Autorzy wykorzystali wszystkie dostępne próbki danych, aby przeprowadzić k-krotną weryfikację krzyżową dla różnych wartości k i zgłosić wyniki walidacji krzyżowej najlepszej konfiguracji hiperparametrów.

Według mojej wiedzy wynik ten jest stronniczy i powinni zachować osobny zestaw testowy, aby uzyskać oszacowanie dokładności próbek nieużywanych do optymalizacji hiperparametrów.

Czy mam rację? Czy możesz podać jakieś referencje (najlepiej artykuły z badań), które opisują to niewłaściwe użycie walidacji krzyżowej?

— Daniel López
źródło

Zauważ, że zamiast osobnego zestawu testowego można użyć tak zwanej zagnieżdżonej weryfikacji krzyżowej . Jeśli szukasz tego terminu na tej stronie, znajdziesz wiele dyskusji. Poszukaj w szczególności odpowiedzi @DikranMarsupial, który jest jednym z autorów drugiego artykułu cytowanego w zaakceptowanej odpowiedzi.

— ameba mówi Przywróć Monikę

Tak, występują problemy z raportowaniem tylko wyników k-krotnie CV. Możesz wykorzystać np. Następujące trzy publikacje do swoich celów (choć oczywiście jest ich więcej), aby wskazać ludziom właściwy kierunek:

Osobiście lubię te, ponieważ starają się przedstawić te kwestie bardziej zwykłym angielskim niż matematyką.

— przedawkowanie
źródło

Mówiąc dokładniej, problemem nie jest raportowanie wyników krzyżowej weryfikacji, ale raportowanie szacunkowych wyników, które były częścią procesu selekcji / optymalizacji.

— cbeleites obsługuje Monikę

Należy również zauważyć, że praca Bengio i Grandvalet jest nieco mniej istotna, jeśli chodzi o wydajność konkretnego modelu wyuczonego na określonym zestawie danych - omawiają one wydajność dla tego samego algorytmu trainig zastosowanego do nowych zbiorów danych z tej samej populacji (co wymaga aby uwzględnić wariancję między różnymi zestawami danych o tym samym rozmiarze próbkowanym z tego samego źródła - co nie stanowi problemu, jeśli mówimy o wydajności prognozowania modelu wyuczonego na określonym zestawie danych).

— cbeleites wspiera Monikę

@cbeleites Poprawnie zauważono: w pierwszym szkicu odpowiedzi przypadkowo wybrałem trzecie odniesienie zamiast drugiego, ale później nie chciałem już usuwać żadnych informacji z już zaakceptowanej odpowiedzi - dlatego zamiast tego dodałem drugi w pomiędzy (patrz wersje odpowiedzi). Niemniej jednak myślę, że pytanie dotyczyło głównie zgłoszonego błędu, a dokumenty te wskazują na niektóre rzeczy, które można zrobić źle z CV w tym zakresie bardzo dobrze IMHO.

— geekoverdose