Jeśli podejmiesz jackknifing nie tylko w celu uwzględnienia pomijania, ale wszelkiego rodzaju próbkowania bez wymiany, takich jak procedury fold, uważam to za realną opcję i używam jej regularnie, np. W
Beleites i in. : Spektroskopowa ocena ramanowska tkanek gwiaździaka: przy użyciu miękkich informacji referencyjnych. Anal Bioanal Chem, 2011, 400, 2801-2816k
patrz także: Przedział ufności dla krzyżowo potwierdzonej dokładności klasyfikacji
Unikam LOO z kilku powodów i zamiast tego używam iterowanego / powtarzanego schematu fold. W mojej dziedzinie (chemia / spektroskopia / chemometria) walidacja krzyżowa jest o wiele bardziej powszechna niż walidacja poza bootstrap. W przypadku naszych danych / typowych aplikacji stwierdziliśmy, że razy iterowałem krotną weryfikację krzyżową i iteracje szacunków wydajności po rozruchu mają bardzo podobny błąd całkowity [Beleites i in. : Zmniejszenie wariancji w szacowaniu błędu klasyfikacji przy użyciu rzadkich zestawów danych. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .kiki⋅k
Szczególną zaletą, którą widzę, patrząc na iterowane schematy weryfikacji krzyżowej nad ładowaniem, jest to, że mogę bardzo łatwo wyliczyć miary stabilności / niepewności modelu, które można intuicyjnie wyjaśnić, i oddzielił dwie różne przyczyny niepewności wariancji w pomiarze wydajności, które są bardziej powiązane pomiary od początku ładowania.
Jedna linia rozumowania, która prowadzi mnie do krzyżowej walidacji / jackknifing, dotyczy niezawodności modelu: krzyżowa walidacja odpowiada raczej bezpośrednio pytaniom typu „Co stanie się z moim modelem, jeśli wymienię przypadków na nowych przypadków?” xxlub „Jak odporny jest mój model na zaburzanie danych treningowych poprzez wymianę przypadków?”x Ma to również zastosowanie do ładowania początkowego, ale mniej bezpośrednio.
Zauważ, że ja nie staram się czerpać przedziałów ufności, ponieważ moje dane są z natury skupione ( Widma pacjentów), więc wolę raporciensnp≪ns
(konserwatywny) dwumianowy przedział ufności wykorzystujący średnią obserwowaną wydajność, a jako wielkość próby inp
wariancja Obserwuję między iteracjach krzyża walidacji. Po złożeniu każdy przypadek jest testowany dokładnie raz, jednak za pomocą różnych modeli zastępczych. W związku z tym wszelkie różnice obserwowane między biegami muszą być spowodowane niestabilnością modelu.iki
Zazwyczaj, tj. Jeśli model jest dobrze skonfigurowany, 2. jest potrzebne tylko, aby pokazać, że jest on znacznie mniejszy niż wariancja w 1., a zatem model jest w miarę stabilny. Jeśli 2. okaże się nie bez znaczenia, nadszedł czas, aby rozważyć modele zagregowane: agregacja modelu pomaga tylko w przypadku wariancji spowodowanej niestabilnością modelu, nie może zmniejszyć niepewności wariancji w pomiarze wydajności wynikającej ze skończonej liczby przypadków testowych .
Należy zauważyć, że w celu skonstruowania przedziałów ufności wydajności dla takich danych przynajmniej wziąłbym pod uwagę, że wariancja zaobserwowana między przebiegami walidacji krzyżowej jest średnią z modeli tej niestabilności, tj. Powiedziałbym, że wariancja niestabilności modelu czy zaobserwował wariancję między przebiegami weryfikacji krzyżowej; plus wariancja ze względu na skończoną liczbę przypadków - w przypadku miar wydajności (trafienia / błędu) jest to dwumianowy. W przypadku miar ciągłych staram się wyprowadzić wariancję z wariancji przebiegu walidacji krzyżowej, oraz oszacowania wariancji typu niestabilności dla modeli pochodzących zikk⋅kk
Zaletą oceny krzyżowej jest to, że masz wyraźne rozgraniczenie między niepewności spowodowanej modelu niestabilności i niepewności spowodowanej przez skończoną liczbę przypadków testowych. Odpowiednią wadą jest oczywiście to, że jeśli zapomnisz wziąć pod uwagę skończoną liczbę rzeczywistych przypadków, poważnie nie docenisz prawdziwej niepewności. Stałoby się tak również w przypadku ładowania początkowego (choć w mniejszym stopniu).
Dotychczasowe rozumowanie koncentruje się na pomiarze wydajności modelu uzyskanego dla danego zestawu danych. Jeśli wziąć pod uwagę to zestaw danych dla danego zastosowania i danego próbki wielkości, istnieje trzeci wkład wariancji, że zasadniczo nie może być mierzona przez resampling walidacji, patrz np Bengio & Grandvalet: Nie nieobciążonym estymatorem wariancji K-Fold Krzyż -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). , mamy również liczby pokazujące te trzy wkłady w Beleites i in. : Planowanie wielkości próby dla modeli klasyfikacyjnych., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Myślę, że to, co się tutaj dzieje, wynika z założenia, że ponowne próbkowanie jest podobne do losowania kompletnej nowej próbki.
Jest to ważne, jeśli algorytmy budowania modelu / strategie / heurystyka mają być porównywane, a nie budowane dla modelu i sprawdzania poprawności tego modelu.