Moje pytanie: czy powinienem zrobić CV nawet dla stosunkowo dużego zbioru danych?
Mam stosunkowo duży zestaw danych i zastosuję algorytm uczenia maszynowego do tego zestawu danych.
Ponieważ mój komputer nie jest szybki, CV (i wyszukiwanie siatki) zajmuje czasem zbyt dużo czasu. W szczególności SVM nigdy się nie kończy z powodu wielu parametrów dostrajania. Dlatego jeśli zrobię CV, muszę wybrać stosunkowo małe dane.
Z drugiej strony zestaw sprawdzania poprawności powinien być również duży, więc uważam, że dobrym pomysłem jest użycie zestawu sprawdzania poprawności, który ma taki sam (lub większy) rozmiar jak zestaw szkoleniowy. (Mianowicie zamiast CV używam dużego zestawu walidacyjnego do strojenia parametrów.)
Mam teraz co najmniej dwie opcje.
- wykonaj CV na małym zestawie danych.
- używaj stosunkowo dużego zestawu szkoleniowego i zestawu walidacyjnego bez CV.
- inny pomysł.
Jaki jest najlepszy pomysł? Zarówno teoretyczne, jak i praktyczne opinie są mile widziane.