10-krotna walidacja krzyżowa vs walidacja krzyżowa typu out-one-out

Przeprowadzam zagnieżdżoną weryfikację krzyżową. Czytałem, że krzyżowa walidacja z pominięciem jednego może być stronnicza (nie pamiętam dlaczego).

Czy lepiej jest używać 10-krotnej walidacji krzyżowej czy pomijanej walidacji krzyżowej oprócz dłuższego czasu wykonywania dla krzyżowej walidacji pomijanej?

machine-learning cross-validation

— maszyneria
źródło

Czy pamiętasz, gdzie to czytasz?

— Richard Hardy

Czy widziałeś ten post o uprzedzeniach? Również w tej odpowiedzi znajduje się cytat z bardzo dobrej książki, która zaleca pięciokrotne lub dziesięciokrotne sprawdzenie poprawności krzyżowej.

— Eric Farng

Ten post jest trochę powiązany.

— Richard Hardy

Dziękuję Ci. Podsumowując, można powiedzieć, że powinienem stosować 10-krotnie CV zamiast CV z pominięciem jednego? Czy dotyczy to również małego zestawu danych?

— maszyny

@ Thomas, kiedy twój zestaw danych staje się zbyt mały, w końcu prawie robisz LOO-CV, więc korzyść z 10-krotnego CV zmniejsza się wraz ze zmniejszaniem się rozmiaru zestawu danych.

— cdeterman

Odpowiedzi:

Wystarczy dodać nieco do odpowiedzi @SubravetiSuraj (+1)

Walidacja krzyżowa daje pesymistycznie tendencyjne oszacowanie wydajności, ponieważ większość modeli statystycznych poprawi się, jeśli zestaw szkoleniowy zostanie powiększony. Oznacza to, że k-krotna walidacja krzyżowa szacuje wydajność modelu wyuczonego na zbiorze danych 100 * (k-1) / k% dostępnych danych, a nie na 100% tych danych. Jeśli więc przeprowadzisz walidację krzyżową w celu oszacowania wydajności, a następnie użyjesz modelu wyszkolonego na wszystkich danych do użytku operacyjnego, będzie on działał nieco lepiej niż sugeruje to ocena szacunkowa.

Weryfikacja krzyżowa z pominięciem jednego jest w przybliżeniu bezstronna , ponieważ różnica w wielkości między zestawem szkoleniowym stosowanym w każdym foldowaniu a całym zestawem danych jest tylko jednym wzorcem. Jest na ten temat artykuł Luntza i Brailowskiego (po rosyjsku).

Luntz, Aleksandr i Viktor Brailovsky. „O oszacowaniu znaków uzyskanych w statystycznej procedurze uznania.” Technicheskaya Kibernetica 3.6 (1969): 6-12.

Zobacz też

Szacowanie poziomów błędu w analizie dyskryminacyjnej Peter A. Lachenbruch i M. Ray Mickey Technometrics vol. 10, Iss. 1,1968

Jednakże, chociaż weryfikacja krzyżowa z pominięciem jednego z nich jest w przybliżeniu bezstronna, zwykle wykazuje dużą wariancję (więc otrzymujesz bardzo różne szacunki, jeśli powtórzysz oszacowanie z różnymi początkowymi próbkami danych z tego samego rozkładu). Ponieważ błąd estymatora jest kombinacją odchylenia i wariancji, to, czy lepsza krzyżowa walidacja z pominięciem jednego jest lepsza niż 10-krotna walidacja krzyżowa, zależy od obu wielkości.

Teraz wariancja dopasowania modelu jest zwykle większa, jeśli jest on dopasowany do małego zestawu danych (ponieważ jest bardziej wrażliwy na wszelkie artefakty związane z hałasem / próbkowaniem w konkretnej zastosowanej próbce szkoleniowej). Oznacza to, że 10-krotna walidacja krzyżowa może mieć dużą wariancję (a także wyższą stronniczość), jeśli masz tylko ograniczoną ilość danych, ponieważ rozmiar zestawu treningowego będzie mniejszy niż dla LOOCV. Tak więc k-krotnie weryfikacja krzyżowa może również powodować problemy z wariancją, ale z innego powodu. Właśnie dlatego LOOCV jest często lepszy, gdy rozmiar zestawu danych jest mały.

Jednak moim zdaniem głównym powodem użycia LOOCV jest to, że jest niedrogie obliczeniowo w przypadku niektórych modeli (takich jak regresja liniowa, większość metod jądra, klasyfikatory najbliższych sąsiadów itp.), I chyba że zestaw danych byłby bardzo mały, użyłbym 10-krotna walidacja krzyżowa, jeśli mieści się w moim budżecie obliczeniowym, lub jeszcze lepiej, oszacowanie bootstrap i workowanie.

— Dikran Torbacz
źródło

+1 za niejasne rosyjskie referencje z 1969 roku! Czy masz dobre referencje na temat dużej zmienności LOOCV? Jest to stwierdzone w Hastie i in., Ale nie jestem pewien, czy jestem w 100% przekonany argumentem i nie widziałem demonstracji empirycznych (symulacji).

— ameba mówi Przywróć Monikę

tak, nie sądzę jednak, że się z tym zgadzam, ponieważ zakłada, że model jest stabilny w przypadku zakłóceń spowodowanych usunięciem próbek testowych, co może się okazać prawdą, jeśli masz bardzo duży zestaw danych (tj. tylko asymptotycznie prawdziwe, ale gdybyś miał tak dużo danych, prawie każdy rozsądny schemat oceny wydajności dałby ten sam wynik).

— Dikran Torbacz

+1 (zarówno post, jak i najnowszy komentarz - świetny artykuł, ale nie można go oślepić (jak każdy inny artykuł)).

— usεr11852 mówi: Przywróć Monic

@Dikran Temat (LOOCV o największej wariancji) pojawił się ponownie w osobnym i dość interesującym pytaniu: stats.stackexchange.com/questions/280665 , możesz rzucić okiem.

— ameba mówi Przywróć Monikę

k

$k$

Moim zdaniem, pomiń jedną walidację krzyżową, lepiej gdy masz mały zestaw danych treningowych. W takim przypadku nie można tak naprawdę wykonać 10-krotności, aby przewidzieć wykorzystanie pozostałej części danych do szkolenia modelu.

Jeśli z drugiej strony dysponujesz dużą ilością danych treningowych, lepszym rozwiązaniem byłaby 10-krotna walidacja krzyżowa, ponieważ będzie zbyt wiele iteracji, aby pominąć jedną walidację krzyżową, a rozważenie tych wielu wyników w celu dostrojenia hiperparametrów może nie być takim dobrym pomysłem.

Według ISL, zawsze występuje kompromis wariancji odchylenia między robieniem jednego pomijania a k-krotnym sprawdzaniem poprawności. W LOOCV (zostaw jedno CV) otrzymujesz oszacowania błędu testu z mniejszym odchyleniem i wyższą wariancją, ponieważ każdy zestaw treningowy zawiera przykłady n-1, co oznacza, że używasz prawie całego zestawu treningowego w każdej iteracji. Prowadzi to również do większej wariancji, ponieważ zestawy treningowe nakładają się na siebie, a zatem oszacowania błędu testu są wysoce skorelowane, co oznacza, że średnia wartość oszacowania błędu testu będzie miała większą wariancję.

Przeciwnie, prawda jest w przypadku k-krotnego CV, ponieważ zestawy treningowe nakładają się stosunkowo mniej, dlatego oszacowania błędu testu są mniej skorelowane, w wyniku czego średnia wartość błędu testu nie będzie miała tak dużej wariancji jak LOOCV.

— Subraveti Suraj
źródło