Jeśli już znalazłem funkcję minimalnego kosztu w podzbiorze sprawdzania poprawności, dlaczego miałbym ponownie go testować w podzbiorze testowym
Z powodu błędu losowego: zazwyczaj masz tylko skończoną liczbę przypadków.
Optymalizacja wydajności sprawdzania poprawności (testu wewnętrznego) oznacza, że możesz być nadmiernie dopasowany do tego zestawu testów wewnętrznych. Wewnętrzny zestaw testowy przyczynia się do oszacowania ostatecznego modelu, a zatem nie jest niezależny od modelu.
Oznacza to, że musisz mieć inny (zewnętrzny) zestaw testowy, który jest niezależny od całej procedury modelowania (w tym wszystkich procesów optymalizacji i wstępnego przetwarzania danych lub wyboru modelu), jeśli chcesz oszacować właściwości uogólniające.
Zalecam wykonanie symulacji i porównanie trzech różnych oszacowań błędów, jakie możesz mieć
- resubstitution: przewidywanie składu pociągu
mierzy dobroć dopasowania
- zestaw testów wewnętrznych (w twojej nomenklaturze: sprawdzanie poprawności): jakość, którą według optymalizatora jest osiągnięta
- zewnętrzny zestaw testowy: błąd uogólnienia, niezależny od szkolenia modelu.
W symulacji można łatwo porównać je również z odpowiednim, dużym, niezależnie generowanym zestawem testowym. Jeśli konfiguracja jest poprawna, test zewnętrzny powinien być bezstronny (w porównaniu z ocenianym modelem zastępczym, a nie w „ostatecznym” modelu zbudowanym na całym zestawie danych). Test wewnętrzny jest zwykle tendencyjnie tendencyjny, a resubstytucja jeszcze bardziej optymistycznie tendencyjny.
W mojej dziedzinie test wewnętrzny łatwo nie doceniłby błędu uogólnienia o współczynnik 2–5 (znacznie więcej w przypadku agresywnych schematów optymalizacji).
Uwaga: nomenklatura zestawów nie jest uniwersalna. W mojej dziedzinie (chemia analityczna) walidacja zwykle oznaczałaby dowód wykonania ostatecznej procedury - a więc bardziej to, co robi zestaw „testowy” niż to, co robi zestaw „walidacji”.
Dlatego wolę mówić o wewnętrznym i zewnętrznym zestawie testowym lub zestawie testowym optymalizacji (= wewnętrzny zestaw testowy), a wtedy zestaw sprawdzania poprawności oznaczałby zewnętrzny zestaw testowy.