Załóżmy, że trenowałem kilka modeli na zestawie treningowym, wybierz najlepszy, używając zestawu do krzyżowej weryfikacji i mierzonej wydajności na zestawie testowym. Więc teraz mam jeden ostateczny najlepszy model. Czy powinienem przekwalifikować je na wszystkie dostępne dane lub wysłać rozwiązanie szkolone tylko na zestawie szkoleniowym? Jeśli to drugie, to dlaczego?
AKTUALIZACJA: Jak zauważył @ P.Windridge, wysyłka przekwalifikowanego modelu zasadniczo oznacza wysyłkę modelu bez walidacji. Możemy jednak zgłosić wydajność zestawu testowego, a następnie ponownie przeszkolić model w zakresie pełnych danych, słusznie oczekując, że wydajność będzie lepsza - ponieważ używamy naszego najlepszego modelu i większej liczby danych. Jakie problemy mogą wynikać z takiej metodologii?