Myślę, że brakuje ci czegoś w swoim rozumieniu celu wzajemnej weryfikacji.
Wyjaśnijmy trochę terminologię, ogólnie mówiąc, mówiąc „model”, odnosimy się do konkretnej metody opisywania, w jaki sposób niektóre dane wejściowe odnoszą się do tego, co próbujemy przewidzieć. Zasadniczo nie odnosimy się do poszczególnych przypadków tej metody jako do różnych modeli. Można więc powiedzieć „mam model regresji liniowej”, ale nie nazwałbyś dwóch różnych zestawów wyuczonych współczynników różnymi modelami. Przynajmniej nie w kontekście wyboru modelu.
Tak więc, kiedy przeprowadzasz walidację krzyżową metodą K-krotnie, testujesz, jak dobrze twój model może zostać przeszkolony przez niektóre dane, a następnie przewidzieć dane, których nie widział. W tym celu korzystamy z weryfikacji krzyżowej, ponieważ jeśli trenujesz przy użyciu wszystkich posiadanych danych, nie masz żadnych do testowania. Możesz to zrobić raz, powiedzmy, używając 80% danych do trenowania i 20% do testowania, ale co jeśli 20%, które akurat wybierałeś do testowania, zawiera mnóstwo punktów, które są szczególnie łatwe (lub szczególnie trudne) przewidzieć? Nie opracujemy najlepszego możliwego oszacowania zdolności modeli do uczenia się i przewidywania.
Chcemy wykorzystać wszystkie dane. Aby więc kontynuować powyższy przykład podziału 80/20, przeprowadzilibyśmy 5-krotną weryfikację krzyżową, trenując model 5 razy na 80% danych i testując na 20%. Zapewniamy, że każdy punkt danych trafi do zestawu testowego 20% dokładnie raz. Dlatego wykorzystaliśmy każdy punkt danych, który musimy przyczynić się do zrozumienia, jak dobrze nasz model wykonuje zadanie uczenia się na podstawie niektórych danych i przewidywania nowych danych.
Ale celem krzyżowej weryfikacji nie jest wymyślenie naszego ostatecznego modelu. Nie używamy tych 5 przykładów naszego wyszkolonego modelu do robienia prawdziwych prognoz. W tym celu chcemy wykorzystać wszystkie dane, aby opracować najlepszy możliwy model. Celem weryfikacji krzyżowej jest sprawdzenie modelu, a nie budowanie modelu.
Powiedzmy, że mamy dwa modele, powiedzmy model regresji liniowej i sieć neuronową. Jak możemy powiedzieć, który model jest lepszy? Możemy wykonać K-krotną walidację krzyżową i zobaczyć, która z nich lepiej sprawdza się w przewidywaniu punktów testowych. Ale kiedy użyjemy walidacji krzyżowej, aby wybrać model o lepszej wydajności, trenujemy ten model (czy to regresja liniowa, czy sieć neuronowa) na wszystkich danych. Nie używamy rzeczywistych instancji modelu, które szkoliliśmy podczas weryfikacji krzyżowej, w naszym ostatecznym modelu predykcyjnym.
Należy zauważyć, że istnieje technika zwana agregacją bootstrap (zwykle skracaną do „workowania”), która w pewien sposób wykorzystuje instancje modelu wytworzone w sposób podobny do weryfikacji krzyżowej w celu zbudowania modelu zespołu, ale jest to technika zaawansowana poza zakresem twojego pytania tutaj.