Większe zestawy walidacyjne dają dokładniejsze szacunki wydajności poza próbą. Ale jak zauważyłeś, w pewnym momencie oszacowanie może być tak dokładne, jak potrzebujesz, i możesz dokonać pewnych przybliżonych prognoz co do wielkości próby sprawdzania poprawności, którą musisz osiągnąć.
Dla prostej poprawnej / niepoprawnej dokładności klasyfikacji można obliczyć błąd standardowy oszacowania jako (odchylenie standardowe zmiennej Bernouilli), gdziepjest prawdopodobieństwem poprawnej klasyfikacji, anjest rozmiarem zbioru walidacyjnego. Oczywiście nie znaszp, ale możesz mieć pojęcie o jego zasięgu. Załóżmy na przykład, że oczekujesz dokładności między 60-80% i chcesz, aby w swoich szacunkach błąd standardowy był mniejszy niż 0,1%:
√p(1−p)/n−−−−−−−−−√pnp
Jak duży powinien byćn(rozmiar zestawu walidacyjnego)? Dlap=0,6otrzymujemy:
n> 0,6 - 0,6 2
p(1−p)/n−−−−−−−−−√<0.001
np=0.6
Dla
p=0,8otrzymujemy:
n>0,8-0,82n>0.6−0.620.0012=240,000
p=0.8
Więc to mówi nam, że można uciec z użyciem mniej niż 5% swoich 5 milionów próbek danych, do walidacji. Odsetek ten spada, jeśli spodziewasz się wyższej wydajności, a zwłaszcza jeśli jesteś zadowolony z niższego standardowego błędu oszacowania wydajności poza próbą (np. Przy
p=0,7i dla se <1%, potrzebujesz tylko 2100 próbek walidacyjnych lub mniej niż jedną dwudziestą procent Twoich danych).
n > 0,8 - 0,82)0,0012)= 160 , 000
p = 0,7
Obliczenia te pokazują również punkt wskazany przez Tima w jego odpowiedzi, że dokładność twoich szacunków zależy od absolutnego rozmiaru twojego zestawu walidacyjnego (tj. Od ), a nie od jego wielkości w stosunku do zestawu treningowego.n
(Mogę również dodać, że zakładam reprezentatywne próbkowanie tutaj. Jeśli twoje dane są bardzo niejednorodne, być może będziesz musiał użyć większych zestawów sprawdzania poprawności, aby upewnić się, że dane sprawdzania poprawności obejmują wszystkie te same warunki itp., Co dane dotyczące pociągu i testu. )