Byłbyś zaskoczony, gdy dowiesz się, że 80/20 jest dość często występującym współczynnikiem, często określanym jako zasada Pareto . Zazwyczaj jest to bezpieczny zakład, jeśli zastosujesz ten współczynnik.
Jednak w zależności od stosowanej metodologii szkolenia / walidacji współczynnik może ulec zmianie. Na przykład: jeśli użyjesz 10-krotnego sprawdzania poprawności krzyżowej, otrzymujesz zestaw sprawdzania poprawności 10% przy każdym zakładaniu.
Przeprowadzono badania dotyczące właściwego stosunku między zestawem szkoleniowym a zestawem walidacyjnym :
Część wzorów zarezerwowana dla zestawu walidacyjnego powinna być odwrotnie proporcjonalna do pierwiastka kwadratowego z liczby dowolnie regulowanych parametrów.
W podsumowaniu określają wzór:
Zestaw walidacyjny (v) do stosunku wielkości zestawu treningowego (t), v / t, skaluje się jak ln (N / h-max), gdzie N jest liczbą rodzin rozpoznających, a h-max jest największą złożonością tych rodzin.
Przez złożoność rozumieją:
Każda rodzina rozpoznawania charakteryzuje się złożonością, która może, ale nie musi być związana z wymiarem VC , długością opisu, liczbą regulowanych parametrów lub innymi miarami złożoności.
Biorąc pod uwagę pierwszą zasadę (zestaw walidacji powinien być odwrotnie proporcjonalny do pierwiastka kwadratowego z liczby dowolnych regulowanych parametrów), możesz stwierdzić, że jeśli masz 32 regulowane parametry, pierwiastek kwadratowy z 32 wynosi ~ 5,65, ułamek powinien wynosić 1 / 5,65 lub 0,177 (v / t). Około 17,7% należy zarezerwować na walidację, a 82,3% na szkolenie.