Po pierwsze, wyjaśnię terminy użyte w pytaniu, tak jak rozumiem. Zwykle zaczynamy od jednego zestawu danych szkoleniowych, używamy k-krotnej weryfikacji krzyżowej do testowania różnych modeli (lub zestawów hiperparametrów) i wybieramy najlepszy model z najniższym błędem CV. Tak więc „oszacowanie błędu testu krzyżowego” oznacza użycie najniższego błędu CV jako błędu testu, a nie tylko błędu CV modelu losowego (co jest przypadkiem omawianym przez cbeleites, ale nie jest to normalne.) „Rzeczywistym błędem testu” jest błąd, który otrzymujemy, stosując najlepszy model CV do nieskończonego zestawu danych testowych, zakładając, że możemy go uzyskać. Błąd CV zależy od konkretnego zestawu danych, jaki mamy, a rzeczywisty błąd testu zależy od wybranego najlepszego modelu CV, który jest również zależny od zestawu danych szkoleniowych. Różnica między błędem CV a błędem testu zależy więc od różnych zestawów danych szkoleniowych. Wtedy pojawia się pytanie, jeśli powtarzamy powyższy proces wiele razy z różnymi zestawami danych szkoleniowych i uśredniamy odpowiednio dwa błędy, dlaczego średni błąd CV jest niższy niż średni błąd testu, tj. Błąd CV jest tendencyjny w dół? Ale przedtem, czy to się zawsze zdarza?
Zwykle nie jest możliwe uzyskanie wielu zestawów danych szkoleniowych i zestawu danych testowych zawierających nieskończone rzędy. Ale można to zrobić przy użyciu danych wygenerowanych przez symulację. W „rozdziale 7 Oceny modelu i selekcji” książki „Elementy statystycznego uczenia się” Trevora Hastiego i in. , obejmuje taki eksperyment symulacyjny.
Wniosek jest taki, że używając CV lub bootstrap „… oszacowanie błędu testu dla określonego zestawu treningowego nie jest ogólnie łatwe, biorąc pod uwagę tylko dane z tego samego zestawu treningowego”. Określenie „niełatwe” oznacza, że błąd CV może być niedoszacowany lub zawyżać rzeczywisty błąd testu w zależności od różnych zestawów danych treningowych, tj. Wariancja spowodowana różnymi zestawami danych treningowych jest dość duża. Co z uprzedzeniami? Testowany kNN i model liniowy są prawie nie stronnicze: błąd CV przecenia prawdziwy błąd testu o 0-4%, ale niektóre modele, takie jak drzewa, walidacja krzyżowa i pasek rozruchowy mogą nie docenić prawdziwego błędu o 10%, ponieważ na wyszukiwanie najlepszego drzewa duży wpływ ma zestaw sprawdzania poprawności ".
Podsumowując, dla określonego zestawu danych szkoleniowych błąd CV może być wyższy lub niższy niż prawdziwy błąd testu. Zasadniczo średni błąd CV może wynosić od nieco wyższego do znacznie niższego niż średni rzeczywisty błąd testu, w zależności od metod modelowania.
Powodem niedoszacowania, jak wspomniano powyżej, jest to, że wybór hiperparametrów dla najlepszego modelu jest ostatecznie zależny od konkretnego zestawu danych treningowych, jaki otrzymujemy. Trochę szczegółów, niech najlepsze hiperparametry będą M1 w tym konkretnym zestawie danych szkoleniowych. Ale M1 może nie być najlepszym hiperparametrem w innym zbiorze danych szkoleniowych, co oznacza, że minimalny błąd CV jest mniejszy niż błąd CV z M1. Tak więc oczekiwane błędy CV, które otrzymujemy w procesie szkolenia, są prawdopodobnie mniejsze niż oczekiwany błąd CV M1. Jedyny przypadek, w którym minimalny błąd CV z określonego zestawu danych szkoleniowych nie jest stronniczy, występuje wtedy, gdy najlepszy model jest zawsze najlepszy niezależnie od zbiorów danych szkoleniowych. Z drugiej strony błąd CV może również nieco przecenić prawdziwy błąd testu, jak dyskutowali cbeleites. Wynika to z tego, że k-krotny błąd CV jest uzyskiwany przez użycie nieco mniej danych treningowych do trenowania modelu (dla 10-krotnego CV, użyj danych 90%), jest on tendencyjny w górę w stosunku do prawdziwego błędu, ale niewiele. Istnieją więc dwie tendencje w różnych kierunkach. W przypadku metody modelowania tendencja do nadmiernego nakładania się, stosowanie mniejszej krotności CV, np. 5-krotna w porównaniu do 10-krotnej, może skutkować mniejszym odchyleniem.
Podsumowując, w praktyce nie pomaga to zbytnio: zazwyczaj otrzymujemy tylko jeden „konkretny” zestaw danych. jeśli będziemy podawać 15% do 30% jako dane testowe i wybierzemy najlepszy model według CV jako resztę jako dane treningowe, istnieje prawdopodobieństwo, że błąd CV będzie inny niż błąd testowy, ponieważ oba różnią się od oczekiwanego błędu testowego. Możemy być podejrzliwi, jeśli błąd CV jest znacznie niższy niż błąd testu, ale nie będziemy wiedzieć, który z nich jest bliższy prawdziwemu błędowi testu. Najlepszą praktyką może być przedstawienie obu wskaźników.