Rzeczywiście poprawnie opisałeś sposób pracy z crossvalidation. W rzeczywistości masz „szczęście”, że na końcu masz rozsądną walidację, ponieważ często do weryfikacji modelu używana jest walidacja krzyżowa, ale nie dokonuje się „prawdziwej” walidacji.
Jak powiedział @Simon Stelling w swoim komentarzu, walidacja krzyżowa doprowadzi do niższych oszacowanych błędów (co ma sens, ponieważ ciągle wykorzystujesz dane), ale na szczęście dzieje się tak w przypadku wszystkich modeli, więc z wyjątkiem katastrofy (tj. Błędy są tylko zmniejszone nieco w przypadku „złego” modelu, a więcej w przypadku „dobrego” modelu), wybranie modelu, który działa najlepiej na podstawie kryterium krzyżowego, zwykle będzie również najlepsze „na prawdziwym”.
Metodą, która czasami jest używana do nieco poprawienia mniejszych błędów, szczególnie jeśli szukasz modeli oszczędnych, jest wybranie najmniejszego modelu / najprostszej metody, dla której błąd weryfikacji krzyżowej mieści się w granicach jednej wartości SD (optymalizacja krzyżowa). Jako sama walidacja krzyżowa jest to heurystyka, dlatego należy z nią postępować ostrożnie (jeśli jest to opcja: zrób wykres błędów w oparciu o parametry strojenia: da ci to pojęcie, czy masz akceptowalne wyniki)
Biorąc pod uwagę tendencyjność błędów w dół, ważne jest, aby nie publikować błędów lub innych miar wydajności z krzyżowej weryfikacji bez wspominania, że pochodzą one z krzyżowej weryfikacji (chociaż prawdę mówiąc: widziałem zbyt wiele publikacji, które nie wspominają, że miara wydajności została uzyskana ze sprawdzenia wydajności w oryginalnym zestawie danych albo --- więc wzmianka o krzyżowej walidacji sprawia, że twoje wyniki są warte więcej ). Dla ciebie to nie będzie problem, ponieważ masz zestaw sprawdzania poprawności.
Ostatnie ostrzeżenie: jeśli dopasowanie modelu daje wynik w przypadku niektórych bliskich konkurentów, dobrym pomysłem jest przyjrzenie się ich osiągnięciom na późniejszym zestawie walidacyjnym, ale nie opieraj na tym ostatecznego wyboru modelu: możesz w najlepszym wypadku użyć tego, aby uspokoić swój sumienie, ale twój „ostateczny” model musiał zostać wybrany, zanim spojrzysz na zestaw walidacyjny.
Napisz swoje drugie pytanie: Myślę, że Simon udzielił wszystkich odpowiedzi, których potrzebujesz w swoim komentarzu, ale aby uzupełnić obraz: jak często w grę wchodzi kompromis wariancji odchylenia. Jeśli wiesz, że średnio osiągniesz prawidłowy wynik (bezstronność), cena jest zwykle taka, że każde twoje indywidualne obliczenie może znajdować się dość daleko od niego (duża wariancja). W dawnych czasach bezstronność była koniecznością plus ultra, w obecnych czasach czasami akceptowano (małe) uprzedzenie (więc nawet nie wiesz, że średnia z twoich obliczeń da wynik poprawny), jeśli to powoduje mniejszą wariancję. Doświadczenie pokazuje, że równowaga jest akceptowalna przy 10-krotnej walidacji krzyżowej. Dla ciebie odchylenie stanowiłoby problem tylko przy optymalizacji twojego modelu, ponieważ możesz oszacować kryterium później (bezstronnie) na zestawie sprawdzania poprawności. W związku z tym nie ma powodu, aby nie korzystać z weryfikacji krzyżowej.