Hold-out jest często używany jako synonim walidacji z niezależnym zestawem testowym, chociaż istnieją zasadnicze różnice między losowym dzieleniem danych a zaprojektowaniem eksperymentu walidacyjnego dla niezależnego testowania.
Niezależnych zestawów testowych można użyć do pomiaru wydajności uogólnienia, której nie można zmierzyć przez ponowne próbkowanie lub walidację wstrzymania, np. Wydajność dla nieznanych przyszłych przypadków (= przypadków, które są mierzone później, po zakończeniu szkolenia). Jest to ważne, aby wiedzieć, jak długo istniejący model może być wykorzystywany do nowych danych (pomyśl np. O dryfcie przyrządu). Mówiąc bardziej ogólnie, można to opisać jako pomiar wydajności ekstrapolacji w celu określenia granic możliwości zastosowania.
Innym scenariuszem, w którym wstrzymanie może być rzeczywiście korzystne, jest: bardzo łatwo jest zapewnić prawidłowe oddzielenie danych szkoleniowych i testowych - znacznie łatwiej niż w przypadku walidacji ponownego próbkowania: np.
- decyduj o podziale (np. wykonuj losowe przydzielanie spraw)
- pomiar
- dane pomiarowe i referencyjne przypadków szkoleniowych => modelowanie \ ani modelowanie, ani pomiary, ani odniesienia do przypadków testowych nie są przekazywane.
- model końcowy + pomiary przetrzymywanych przypadków => przewidywanie
- porównać prognozy z odniesieniem dla przypadków wstrzymanych.
W zależności od potrzebnego poziomu separacji każdy krok może być wykonany przez kogoś innego. Po pierwsze, nieprzekazanie modelarzowi żadnych danych (nawet pomiarów) przypadków testowych pozwala być bardzo pewnym, że żadne dane testowe nie wyciekną do procesu modelowania. Na drugim poziomie ostateczny model i pomiary przypadków testowych można przekazać jeszcze komuś innemu i tak dalej.
Tak, płacisz za to niższą wydajnością szacunków wstrzymania w porównaniu z weryfikacją ponownego próbkowania. Ale widziałem wiele artykułów, w których podejrzewam, że walidacja ponownego próbkowania nie rozdziela poprawnie przypadków (w mojej dziedzinie mamy wiele danych klastrowych / hierarchicznych / zgrupowanych).
Nauczyłem się lekcji na temat wycieków danych do ponownego próbkowania poprzez wycofanie manuskryptu tydzień po przesłaniu, kiedy dowiedziałem się, że miałem wcześniej niewykrywalny (przez uruchomienie testów permutacji obok) przeciek w mojej procedurze dzielenia (literówka w obliczaniu indeksu).
Czasami wstrzymanie może być bardziej skuteczne niż znalezienie kogoś, kto jest skłonny poświęcić czas na sprawdzenie kodu ponownego próbkowania (np. W przypadku danych klastrowych) w celu uzyskania tego samego poziomu pewności co do wyników. Jednak IMHO zwykle nie jest efektywne, aby to zrobić, zanim przejdziesz do etapu, w którym i tak musisz zmierzyć np. Przyszłą wydajność (pierwszy punkt) - innymi słowy, kiedy i tak musisz skonfigurować eksperyment sprawdzania poprawności dla istniejącego modelu.
OTOH, w sytuacjach z małą próbką, wstrzymanie nie jest opcją: musisz wyciągnąć wystarczającą liczbę przypadków testowych, aby wyniki testów były wystarczająco dokładne, aby pozwolić na wymagany wniosek (pamiętaj: 3 prawidłowe z 3 przypadków testowych do klasyfikacji oznacza dwumianowy 95% przedział ufności, który waha się znacznie poniżej zgadywania 50:50!) Frank Harrell wskazałby na ogólną zasadę, że przynajmniej ok. 100 (testowych) przypadków jest potrzebnych do prawidłowego pomiaru proporcji [takiej jak odsetek prawidłowo przewidywanych przypadków] z użyteczną precyzją.
Aktualizacja: istnieją sytuacje, w których prawidłowe rozdzielenie jest szczególnie trudne do osiągnięcia, a wzajemna weryfikacja staje się niemożliwa. Zastanów się nad problemem związanym z wieloma problemami. Podział jest łatwy, jeśli te pomieszania są ściśle zagnieżdżone (np. Badanie z udziałem kilku pacjentów obejmuje kilka próbek każdego pacjenta i analizuje liczbę komórek każdej próbki): dzielisz się na najwyższym poziomie hierarchii próbkowania (pod względem pacjenta) . Ale możesz mieć niezależne czynniki zakłócające, które nie są zagnieżdżone, np. Zmienność z dnia na dzień lub wariancja spowodowana przez różnych eksperymentujących przeprowadzających test. Następnie musisz upewnić się, że podział jest niezależny dla wszystkichelementy zakłócające na najwyższym poziomie (zagnieżdżone elementy zakłócające będą automatycznie niezależne). Zajęcie się tym jest bardzo trudne, jeśli niektóre pomyłki zostaną zidentyfikowane tylko podczas badania, a zaprojektowanie i przeprowadzenie eksperymentu walidacyjnego może być bardziej wydajne niż radzenie sobie z podziałami, które nie pozostawiają prawie żadnych danych ani do szkolenia, ani do testowania modeli zastępczych.