IMHO jedną z najgorszych właściwości walidacji wstrzymania jest raczej psychologiczna niż statystyczna: widzę wiele opóźnień, które interpretowane są tak, jakby były niezależnym eksperymentem walidacyjnym (z niezależnością już na poziomie eksperymentalnym), chociaż wiele kluczowe problemy, które widzę podczas sprawdzania poprawności ponownego próbkowania, mogą i będą się pojawiać tak samo przy wstrzymywaniu (każdy problem, który wynika z niewłaściwego podziału).
Poza tym IMHO jest prawie taki sam jak resampling (przynajmniej tak, jak widziałem to w praktyce). Różnice są
- całkowita liczba faktycznie różnych badanych przypadków jest niższa (w związku z tym oszacowanie jest mniej pewne).
- W przypadku wstrzymania wydajność jest deklarowana dla faktycznie testowanego modelu, a nie dla faktycznie nieprzetestowanego modelu zbudowanego z trajektorii wstrzymania plus dane testowe wstrzymania. Ponowne próbkowanie twierdzi, że zmierzona wydajność jest dobrym przybliżeniem do wydajności tego drugiego modelu. Ale widziałem również, że w ten sposób zastosowano metodę wstrzymywania („sprawdzanie poprawności zestawu”).
Esbensen i Geladi: Zasady prawidłowej walidacji: stosowanie i nadużywanie ponownego próbkowania do celów walidacji, Journal of Chemometrics, 24 (3-4), 168-187 dowodzi, że w praktyce oba nie są bardzo dobrymi przybliżeniami zestawów danych (walidacja eksperymenty), które pozwalają zmierzyć naprawdę interesujące parametry wydajności.
możesz skończyć się zbytnim dopasowaniem do danych testowych w taki sam sposób, w jaki możesz dopasować się do danych treningowych.
Podobnie jak w przypadku każdej innej walidacji: w przypadku modelowania / wyboru modelu opartego na danych potrzebny jest inny niezależny poziom walidacji. Nie widzę tu żadnej różnicy między schematami wstrzymywania i ponownego próbkowania.
najpierw przy użyciu sprawdzania poprawności wstrzymania do zbudowania i przetestowania modelu, a następnie jako etap sprawdzania poprawności kilkukrotnie rysuje zestaw wstrzymania, aby pokazać, że moje oszacowania błędu prognozowania (na zestawie testowym) są odporne na błąd próbkowania w teście zestaw. Czy to zły pomysł z jakiegokolwiek powodu?
Myślę, że tak, tak: IMHO należy użyć zestawu zagnieżdżonego
(chyba że chcesz zasugerować, że walidacja wstrzymania może i powinna być również powtórzona - jest to prawidłowe podejście, które różni się od iteracji / powtarzania sprawdzania poprawności zestawu tylko interpretacją : czy deklaracja wydajności dotyczy wielu faktycznie przetestowanych modeli, czy też jest ekstrapolowana na jeden model zbudowany ze wszystkich danych).