Wiem, że aby uzyskać dostęp do wyników klasyfikatora, muszę podzielić dane na zestaw szkoleniowy / testowy. Ale czytając to :
Podczas oceny różnych ustawień („hiperparametrów”) dla estymatorów, takich jak ustawienie C, które należy ręcznie ustawić dla SVM, nadal istnieje ryzyko przeregulowania zestawu testowego, ponieważ parametry można modyfikować, dopóki estymator nie wykona optymalnie. W ten sposób wiedza o zestawie testowym może „wyciekać” do modelu, a mierniki oceny nie będą już raportować wydajności uogólnienia. Aby rozwiązać ten problem, jeszcze jedna część zestawu danych może zostać przeprowadzona jako tak zwany „zestaw walidacyjny”: szkolenie przebiega na zestawie szkoleniowym, po którym następuje ocena na zestawie sprawdzania poprawności i kiedy eksperyment wydaje się udany , końcową ocenę można przeprowadzić na zestawie testowym.
Widzę, że wprowadzono inny (trzeci) zestaw sprawdzania poprawności, co jest uzasadnione nadmiernym dopasowaniem zestawu testowego podczas strojenia hiperparametrów.
Problem polega na tym, że nie mogę zrozumieć, w jaki sposób może pojawić się to przeregulowanie, a zatem nie mogę zrozumieć uzasadnienia trzeciego zestawu.