K-fold cross-validation (CV) losowo dzieli dane na partycje K, a Ty z kolei trzymasz jedną z tych części K jako przypadek testowy i łączysz pozostałe części K-1 jako dane treningowe. Leave One Out (LOO) to specjalny przypadek, w którym bierzesz N danych i wypełniasz N-krotnie CV. W pewnym sensie Hold Out to kolejny specjalny przypadek, w którym wybierasz tylko jeden ze swoich K-foldów jako test i nie obracasz się przez wszystkie K-foldy.
O ile mi wiadomo, 10-krotne CV jest w zasadzie de rigueur, ponieważ skutecznie wykorzystuje twoje dane, a także pomaga uniknąć pechowych wyborów partycji. Funkcja Hold Out nie wykorzystuje wydajnie twoich danych, a LOO nie jest tak solidny (lub coś w tym rodzaju), ale 10-krotne krycie jest w sam raz.
Jeśli wiesz, że twoje dane zawierają więcej niż jedną kategorię, a jedna lub więcej kategorii jest znacznie mniejsza niż reszta, niektóre z twoich losowych partycji K mogą nawet nie zawierać żadnej z małych kategorii, co byłoby złe. Aby upewnić się, że każda partycja jest w miarę reprezentatywna, stosujesz stratyfikację: podziel dane na kategorie, a następnie utwórz losowe partycje, wybierając losowo i proporcjonalnie z każdej kategorii.
Wszystkie te odmiany K-fold CV wybierają z danych bez wymiany. Bootstrap wybiera dane z zamiennikiem, więc ten sam układ odniesienia może być dołączony wiele razy, a niektóre dane mogą w ogóle nie zostać uwzględnione. (Każda „partycja” będzie również miała N elementów, w przeciwieństwie do K-fold, w którym każda partycja będzie miała N / K pozycji.)
(Muszę jednak przyznać, że nie wiem dokładnie, w jaki sposób bootstrap byłby używany w CV. Zasadą testowania i CV jest upewnienie się, że nie testujesz danych, na których trenowałeś, więc otrzymujesz bardziej realistyczne wyobrażenie o tym, jak Twoja technika + współczynniki mogą działać w realnym świecie).
EDYCJA: Zastąpiono „Hold Out nie jest efektywny” na „Hold Out nie efektywnie wykorzystuje twoje dane”, aby pomóc wyjaśnić, zgodnie z komentarzami.