Gdy próbujesz dopasować modele do dużego zestawu danych, powszechną wskazówką jest podzielenie danych na trzy części: szkolenie, sprawdzanie poprawności i testowanie zestawu danych.
Wynika to z faktu, że modele zwykle mają trzy „poziomy” parametrów: pierwszy „parametr” to klasa modelu (np. SVM, sieć neuronowa, losowy las), drugi zestaw parametrów to parametry „regularyzacji” lub „hiperparametry” ( np. współczynnik kar lasso, wybór jądra, struktura sieci neuronowej) i trzeci zestaw są zwykle uważane za „parametry” (np. współczynniki dla zmiennych towarzyszących).
Biorąc pod uwagę klasę modelu i wybór hiperparametrów, wybiera się parametry, wybierając parametry, które minimalizują błąd w zestawie treningowym. Biorąc pod uwagę klasę modelu, dostraja się hiperparametry, minimalizując błąd w zestawie sprawdzania poprawności. Jeden wybiera klasę modelu na podstawie wydajności w zestawie testowym.
Ale dlaczego nie więcej partycji? Często można podzielić hiperparametry na dwie grupy i użyć „walidacji 1”, aby dopasować pierwszą i „walidacji 2”, aby dopasować drugą. Lub można nawet traktować rozmiar podzielonych danych treningowych / danych walidacyjnych jako hiperparametr, który należy dostroić.
Czy jest to już powszechna praktyka w niektórych aplikacjach? Czy są jakieś prace teoretyczne dotyczące optymalnego partycjonowania danych?