Wystarczy dodać nieco do odpowiedzi @SubravetiSuraj (+1)
Walidacja krzyżowa daje pesymistycznie tendencyjne oszacowanie wydajności, ponieważ większość modeli statystycznych poprawi się, jeśli zestaw szkoleniowy zostanie powiększony. Oznacza to, że k-krotna walidacja krzyżowa szacuje wydajność modelu wyuczonego na zbiorze danych 100 * (k-1) / k% dostępnych danych, a nie na 100% tych danych. Jeśli więc przeprowadzisz walidację krzyżową w celu oszacowania wydajności, a następnie użyjesz modelu wyszkolonego na wszystkich danych do użytku operacyjnego, będzie on działał nieco lepiej niż sugeruje to ocena szacunkowa.
Weryfikacja krzyżowa z pominięciem jednego jest w przybliżeniu bezstronna , ponieważ różnica w wielkości między zestawem szkoleniowym stosowanym w każdym foldowaniu a całym zestawem danych jest tylko jednym wzorcem. Jest na ten temat artykuł Luntza i Brailowskiego (po rosyjsku).
Luntz, Aleksandr i Viktor Brailovsky. „O oszacowaniu znaków uzyskanych w statystycznej procedurze uznania.” Technicheskaya Kibernetica 3.6 (1969): 6-12.
Zobacz też
Szacowanie poziomów błędu w analizie dyskryminacyjnej Peter A. Lachenbruch i M. Ray Mickey Technometrics vol. 10, Iss. 1,1968
Jednakże, chociaż weryfikacja krzyżowa z pominięciem jednego z nich jest w przybliżeniu bezstronna, zwykle wykazuje dużą wariancję (więc otrzymujesz bardzo różne szacunki, jeśli powtórzysz oszacowanie z różnymi początkowymi próbkami danych z tego samego rozkładu). Ponieważ błąd estymatora jest kombinacją odchylenia i wariancji, to, czy lepsza krzyżowa walidacja z pominięciem jednego jest lepsza niż 10-krotna walidacja krzyżowa, zależy od obu wielkości.
Teraz wariancja dopasowania modelu jest zwykle większa, jeśli jest on dopasowany do małego zestawu danych (ponieważ jest bardziej wrażliwy na wszelkie artefakty związane z hałasem / próbkowaniem w konkretnej zastosowanej próbce szkoleniowej). Oznacza to, że 10-krotna walidacja krzyżowa może mieć dużą wariancję (a także wyższą stronniczość), jeśli masz tylko ograniczoną ilość danych, ponieważ rozmiar zestawu treningowego będzie mniejszy niż dla LOOCV. Tak więc k-krotnie weryfikacja krzyżowa może również powodować problemy z wariancją, ale z innego powodu. Właśnie dlatego LOOCV jest często lepszy, gdy rozmiar zestawu danych jest mały.
Jednak moim zdaniem głównym powodem użycia LOOCV jest to, że jest niedrogie obliczeniowo w przypadku niektórych modeli (takich jak regresja liniowa, większość metod jądra, klasyfikatory najbliższych sąsiadów itp.), I chyba że zestaw danych byłby bardzo mały, użyłbym 10-krotna walidacja krzyżowa, jeśli mieści się w moim budżecie obliczeniowym, lub jeszcze lepiej, oszacowanie bootstrap i workowanie.