Optymalna liczba fałdów w walidacji krzyżowej krotności

Pomijając rozważania dotyczące mocy obliczeniowej, czy istnieją jakiekolwiek powody, by sądzić, że zwiększenie liczby fałdów w walidacji krzyżowej prowadzi do lepszego wyboru / walidacji modelu (tj. Że im wyższa liczba fałdów, tym lepiej)?

Mówiąc skrajnie, czy wykluczająca się krzyżowa walidacja niekoniecznie prowadzi do lepszych modeli niż krzyżowa walidacja -krotnie? $K$

Podstawowe informacje o tym pytaniu: pracuję nad problemem w bardzo niewielu przypadkach (np. 10 pozytywnych i 10 negatywnych) i obawiam się, że moje modele mogą nie uogólniać się dobrze / nie pasowałyby do tak małej ilości danych.

cross-validation bias-variance-tradeoff

— Amelio Vazquez-Reina
źródło

Starszy pokrewny wątek: Wybór K w K-krotnie walidacji krzyżowej .

— ameba mówi Przywróć Monikę

To pytanie nie jest duplikatem, ponieważ ogranicza się do małych zestawów danych i „Pomijając względy dotyczące mocy obliczeniowej”. Jest to poważne ograniczenie, które sprawia, że pytanie nie ma zastosowania do tych z dużymi zestawami danych i algorytmem szkoleniowym o złożoności obliczeniowej co najmniej liniowej pod względem liczby instancji (lub przewidywania co najmniej pierwiastka kwadratowego z liczby instancji).

— Serge Rogatch,

Odpowiedzi:

Weryfikacja krzyżowa z pominięciem jednego z reguły nie prowadzi do lepszej wydajności niż K-krotnie i jest bardziej prawdopodobne, że będzie gorsza , ponieważ ma względnie dużą wariancję (tj. Jej wartość zmienia się bardziej dla różnych próbek danych niż wartość dla k-krotna walidacja krzyżowa). Jest to złe w kryterium wyboru modelu, ponieważ oznacza, że kryterium wyboru modelu można zoptymalizować w taki sposób, aby po prostu wykorzystać losową zmienność w określonej próbce danych, zamiast wprowadzać rzeczywistej poprawy wydajności, tzn. Istnieje większe prawdopodobieństwo, że nadmiernie się dopasujesz kryterium wyboru modelu. Powodem, dla którego w praktyce stosowana jest walidacja krzyżowa z pominięciem jednego, jest to, że dla wielu modeli można ją bardzo tanio ocenić jako produkt uboczny dopasowania modelu.

Jeśli koszt obliczeniowy nie jest przede wszystkim problemem, lepszym podejściem jest wykonanie powtarzanej k-krotnej walidacji krzyżowej, w której k-krotna procedura walidacji krzyżowej jest powtarzana z różnymi losowymi partycjami do k rozłącznych podzbiorów za każdym razem. To zmniejsza wariancję.

Jeśli masz tylko 20 wzorców, bardzo prawdopodobne jest, że spotkasz się z nadmiernym dopasowaniem kryterium wyboru modelu, co jest znacznie zaniedbaną pułapką w statystykach i uczeniu maszynowym (bezwstydna wtyczka: patrz mój artykuł na ten temat). Lepiej jest wybrać stosunkowo prosty model i starać się nie optymalizować go bardzo agresywnie lub zastosować podejście bayesowskie i średnią dla wszystkich wyborów modelu, ważone ich wiarygodnością. Optymalizacja IMHO jest źródłem wszelkiego zła w statystykach, więc lepiej nie optymalizować, jeśli nie musisz, i optymalizować ostrożnie za każdym razem, gdy to robisz.

Uwaga: jeśli zamierzasz dokonać wyboru modelu, musisz użyć czegoś takiego jak zagnieżdżone sprawdzanie poprawności krzyżowej, jeśli potrzebujesz również oszacowania wydajności (tj. Musisz rozważyć wybór modelu jako integralną część procedury dopasowania modelu i zweryfikować krzyżowo, że także).

— Dikran Torbacz
źródło

+1. Podoba mi się twój komunikat „optymalizacja jest źródłem wszelkiego zła w statystykach” ...

— S. Kolassa - Przywróć Monikę

Dzięki @DikranMarsupial. Nie do końca podążam. Dlaczego modele wyuczone z pominięciem jednego modelu miałyby większą wariancję niż przy regularnej walidacji krzyżowej k-krotnie ? Moja intuicja podpowiada mi, że ponieważ między fałdami przesuwamy tylko jeden punkt danych, zestawy treningowe między fałdami mocno się pokrywają, więc spodziewałbym się, że zobaczę niewielką wariancję między modelami. Lub idąc w innym kierunku, w K-fold, jeśli K jest niski, zestawy treningowe dla każdego foldu byłyby zupełnie inne, a powstałe modele są bardziej prawdopodobne. Czy się mylę?

— Amelio Vazquez-Reina

To bardzo dobre pytanie samo w sobie, więc proponuję zadać je jako nowe pytanie, a ja zastanowię się, jak na nie odpowiedzieć!

— Dikran Marsupial

Dziękuję @DikranMarsupial Poszedłem za waszą radą i rozpoczął osobną pytanie tutaj .

— Amelio Vazquez-Reina

@DikranMarsupial Myślałem, że wspomnę tutaj, że zacząłem jeszcze jeden wątek zainspirowany twoim komentarzem do „optymalizacji w statystykach” w tej odpowiedzi. Twój komentarz sprawił, że spojrzałem na nadmierne dopasowanie z szerszej perspektywy, do której jestem przyzwyczajony.

— Amelio Vazquez-Reina,

Wybór liczby K składa się na podstawie krzywej uczenia się

$K$

Podsumowując, jeśli krzywa uczenia się ma znaczne nachylenie przy danym rozmiarze zestawu treningowego, pięcio- lub dziesięciokrotna walidacja krzyżowa przeceni prawdziwy błąd prognozowania. To, czy to odchylenie jest w praktyce wada, zależy od celu. Z drugiej strony, krzyżowa walidacja typu „jeden do jednego” ma niskie odchylenie, ale może mieć dużą wariancję.

Intuicyjna wizualizacja na przykładzie zabawki

Aby zrozumieć ten argument wizualnie, rozważ następujący przykład zabawki, w którym dopasowujemy wielomian stopnia 4 do hałaśliwej krzywej sinusoidalnej:

$1 -$ $\pm$

Omawianie argumentu

Wydajność modelu znacznie się poprawia wraz ze wzrostem wielkości treningu do 50 obserwacji. Zwiększenie liczby do 200, na przykład, przynosi tylko niewielkie korzyści. Rozważ następujące dwa przypadki:

$5$ $K$
$50$ $5$ $K$

[Aktualizacja] - Komentarze do metodologii

Kod tej symulacji można znaleźć tutaj . Podejście było następujące:

$sin(x) + \epsilon$ $\epsilon$
$i$ $N$
- $K$
- Przechowuj średni błąd średniokwadratowy (MSE) dla zagięć K
$i$ $i$ $K$
$K$ $\{ 5,...,N\}$

Alternatywnym podejściem jest nie ponowne próbkowanie nowego zestawu danych przy każdej iteracji i zamiast tego ponowne tasowanie tego samego zestawu danych za każdym razem. Wydaje się, że daje to podobne wyniki.

— Xavier Bourret Sicotte
źródło

Daj nam kontynuować tę dyskusję w czacie .

— Xavier Bourret Sicotte

1 - M S E

$1-MSE$

1 - \frac{1}{12}

$1 - \frac{1}{12}$

M S E = V a r + B i a s^{2}

$MSE = Var + Bias^2$

ϵ \sim U (- .5, .5)

$\epsilon \sim U(-.5,.5)$

1 / 12 (b - a)^{2}

$1/12 (b - a)^2$

1 / 12

$1/12$

— Xavier Bourret Sicotte