Argument, który wydaje się przedstawiać, wydaje mi się dziwny.
Według gazety, celem jest oszacowanie CV , oczekiwane predykcyjną osiągi modelu na nowych danych, biorąc pod uwagę, że model był szkolony na obserwowanego zestawu danych S . Kiedy przeprowadzamy k krotnie CV, otrzymujemy szacunkową A z tym numerem. Ze względu na losowy podział S w k fałdy jest zmienną losową ~ f ( ) ze średnim μ kα2SkA^SkA^∼f(A)μk i wariancji . Przeciwnie, powtarzane n -razy CV daje oszacowanie z tą samą średniąσ2kn ale mniejsza wariancja σ 2 k / n .μkσ2k/n
Oczywiście . To uprzedzenie jest czymś, co musimy zaakceptować.α2≠μk
Jednak oczekiwany błąd będzie większa dla mniejszej n i będzie największy dla n = 1 , co najmniej w ramach rozsądnych założenia o f ( A ) , na przykład przy ˙ ~ N ( μ K , σ 2 k / n ) . Innymi słowy, powtarzane CV pozwala uzyskać bardziej precyzyjne oszacowanie ľ kE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μki to dobrze, ponieważ daje dokładniejsze oszacowanie .α2
Dlatego powtórzone CV jest ściśle bardziej precyzyjne niż CV powtarzane.
Autorzy nie kłócą się z tym! Zamiast tego twierdzą, na podstawie symulacji, że
zmniejszenie wariancji [poprzez powtórzenie CV] jest w wielu przypadkach niezbyt przydatne i zasadniczo marnuje zasoby obliczeniowe.
Oznacza to po prostu, że w ich symulacjach było dość niskie; i rzeczywiście, najniższy użyty rozmiar próby wynosił 200 , co jest prawdopodobnie wystarczająco duże, aby uzyskać małe σ 2 k . (Różnica w szacunkach uzyskanych przy CV powtarzającym się i CV powtarzanym 30-krotnie jest zawsze niewielka.) Przy mniejszych próbkach można oczekiwać większej wariancji między powtórzeniami.σ2k200σ2k
CAVEAT: Przedziały ufności!
Innym punktem, na który powołują się autorzy, jest to
zgłaszanie przedziałów ufności [przy wielokrotnej walidacji krzyżowej] jest mylące.
Wydaje się, że odnoszą się one do przedziałów ufności dla średniej w powtórzeniach CV. W pełni się zgadzam, że zgłaszanie tego nie ma sensu! Im więcej razy CV powtarza, tym mniejszy będzie to CI, ale nikt nie jest zainteresowany CI wokół naszych szacunków ! Dbamy o CI wokół naszych oszacowań α 2μkα2 .
Autorzy zgłaszają również CI dla niepowtarzalnego CV i nie jest dla mnie całkowicie jasne, jak te CI zostały zbudowane. Sądzę, że są to CI dla średnich środków fałdach. Twierdziłbym, że te elementy CI są również prawie bez znaczenia!k
Spójrz na jeden z ich przykładów: dokładność adult
zestawu danych z algorytmem NB i wielkość próbki 200. Otrzymują 78,0% przy powtarzanym CV, CI (72,26; 83,74), 79,0% (77,21, 80,79) przy 10-krotnie powtarzanym CV i 79,1% (78,07, 80,13) przy 30-krotnie powtarzanym CV. Wszystkie te elementy CI są bezużyteczne, w tym pierwszy. Najlepsze oszacowanie wynosi 79,1%. Odpowiada to 158 sukcesom na 200. Daje to 95% przedział ufności dwumianowy (72,8, 84,5) - szerszy nawet niż pierwszy podany. Gdybym chciał zgłosić trochę CI, to ten bym zgłosił.μk
WIĘCEJ OGÓLNYCH OGRANICZEŃ: wariancja CV.
Napisałeś to powtórzone CV
stał się popularną techniką zmniejszania wariancji weryfikacji krzyżowej.
Należy wyjaśnić, co oznacza „wariancja” CV. Powtarzane CV zmniejsza wariancję oszacowania . Zwróć uwagę, że w przypadku CV z pominięciem jednego (LOOCV), gdy k = N , ta wariancja jest równa zero. Niemniej jednak często mówi się, że LOOCV ma w rzeczywistości najwyższą wariancję spośród wszystkich możliwych CV z k- krotnością. Patrz np. Tutaj: Rozbieżność i stronniczość w walidacji krzyżowej: dlaczego pominięte CV ma większą wariancję?μkk=Nk
Dlaczego? Wynika to z faktu, że LOOCV ma najwyższą wariancję jako oszacowanie która jest oczekiwaną wydajnością predykcyjną modelu na nowych danych, gdy jest on zbudowany na nowym zestawie danych o tym samym rozmiarze co Sα1S . To jest zupełnie inna sprawa.