Zagnieżdżona walidacja krzyżowa - czym różni się od wyboru modelu poprzez CV Kfold na zestawie treningowym?

Często widzę ludzi mówiących o walidacji krzyżowej 5x2 jako szczególnym przypadku walidacji krzyżowej zagnieżdżonej .

Zakładam, że pierwsza liczba (tutaj: 5) odnosi się do liczby fałd w wewnętrznej pętli, a druga liczba (tutaj: 2) odnosi się do liczby fałd w zewnętrznej pętli? Czym zatem różni się to od „tradycyjnego” podejścia do wyboru i oceny modelu? Mam na myśli „tradycyjny”

podziel zestaw danych na osobne szkolenie (np. 80%) i zestaw testowy
użyj k-krotnej walidacji krzyżowej (np. k = 10) do strojenia hiperparametrów i wyboru modelu w zestawie treningowym
ocenić wydajność uogólnienia wybranego modelu za pomocą zestawu testowego

Czy 5x2 nie jest dokładnie takie samo, z wyjątkiem tego, że zestaw testowy i treningowy mają taki sam rozmiar, jeśli k = 2?

machine-learning cross-validation hyperparameter

Masz rację, w tym przypadku jest tak samo, z tym wyjątkiem, że używa podziału 50/50 w zewnętrznej pętli zamiast 80/20. Zasadniczo daje to lepsze oszacowanie wydajności uogólnienia i powinno być preferowane, szczególnie przy stosunkowo małych próbkach. Z mojego doświadczenia, nawet w przypadku zagnieżdżonego CV, ocena wydajności jest bardzo różna. Często lepiej jest wykonać wielokrotnie zagnieżdżone CV, aby uzyskać dobre oszacowanie wydajności uogólnienia.

— George

Dzięki, to ma sens! Jednak w przypadku małych zestawów treningowych prawdopodobnie zwiększę liczbę fałd w wewnętrznej i zewnętrznej pętli; może zmniejszyć wariancję, ale także zwiększyć stronniczość

Ogólnie rzecz biorąc, zamiast robić zagnieżdżone CV 5x2, zwykle wykonuję (k-1) xk, przy k = 5 lub 10. W przypadku kilku próbek zamiast zwiększania liczby fałd wybrałbym mniejsze wartości k .

— George

Wydaje mi się, że popełniłeś błąd raczej niż całkowicie źle, ale zaakceptowana odpowiedź może nie zgadzać się ze źródłem, z którym zamierzam się odnieść. W Python Machine Learning autorstwa Raschki odnosi się do „szczególnego rodzaju zagnieżdżonej weryfikacji krzyżowej jest również znany jako weryfikacja krzyżowa 5x2”. Dołączona grafika pokazuje, że 2 odnosi się do wewnętrznej pętli dostrajania hiperparametrów, a 5 odnosi się do zewnętrznej pętli do bezstronnego szacowania wydajności modelu. Kolorową kopię grafiki można znaleźć w Scenariuszu 3 tutaj: sebastianraschka.com/faq/docs/evaluate-a-model.html

— Austin

Odpowiedzi:

5x2cv, o ile widziałem w literaturze, zawsze odnosi się do 5 powtórzeń 2-krotnego. W ogóle nie ma zagnieżdżenia. wykonaj 2-krotnie (podział 50/50 między pociągiem a testem), powtórz to jeszcze 4 razy. 5x2cv został spopularyzowany w artykule Przybliżone testy statystyczne do porównania nadzorowanych algorytmów uczenia się klasyfikacji przez Dietterich jako sposób na uzyskanie nie tylko dobrego oszacowania błędu uogólnienia, ale także dobrego oszacowania wariancji tego błędu (w celu przeprowadzenia testów statystycznych )

— Jacques Wainer
źródło

Dzięki! Czy wiesz, co ludzie często robią, jeśli wewnętrzne pętle wybierają różne modele, np. Jeżeli „optymalny” parametr regularyzacji wynosi lambda = 100 podczas wyboru jednego modelu i lambda = 1000 dla drugiego? W takim przypadku obliczanie średniej wydajności modelu byłoby trochę dziwne, prawda !? Czy odrzuciłbyś modele jako „niestabilne”?

Wewnętrzna pętla najprawdopodobniej spowoduje inny wybór hiperparametrów. Nie używasz zagnieżdżonego sprawdzania poprawności krzyżowej, aby wybrać hiperparametry, tylko w celu uzyskania dobrego oszacowania błędu uogólnienia (z najlepszymi możliwymi hiperparametrami). Zagnieżdżone cv służy do decydowania między jednym a drugim algorytmem. Zobacz stats.stackexchange.com/questions/136296/… lub stats.stackexchange.com/questions/65128/... (między innymi)

— Jacques Wainer

Och, rozumiem, to ma wtedy całkowity sens! Myślałem, że ludzie używają go inaczej. Myślę, że możemy wtedy zamknąć pytanie.

2 powtórzenia w zewnętrznej pętli oznaczają, że powtarzasz 5-krotnie CV 2 razy w całym zestawie pociągów. Za każdym razem podział na fałdy będzie inny.

Jest to używane głównie do lepszych oszacowań wydajności modelu, takich jak przeprowadzanie testów statystycznych, czy jeden model wykonuje statystycznie znacznie lepiej niż inny.

Zagnieżdżone CV nie ma krytycznego znaczenia, jeśli Twój zestaw danych jest duży i nie zawiera wartości odstających. Jeśli twoje dane mają wartości odstające, to skuteczność weryfikacji krzyżowej może być drastycznie różna w zależności od tego, w jakich fałdach / fałdach występują te wartości odstające. Dlatego powtarzasz CV kilka razy.

— lanenok
źródło

Słuszna uwaga. W tradycyjnym podejściu (podział na test / pociąg, a następnie k-krotnie CV na zestawie treningowym) masz tylko 1 krotność do oceny modelu, podczas gdy w 5 x 2 CV średnią wydajność można obliczyć z 2 różnych krotności.