Bardzo interesujące pytanie, będę musiał przeczytać papiery, które dajesz ... Ale może to zacznie nas w kierunku odpowiedzi:
Zazwyczaj rozwiązuję ten problem w bardzo pragmatyczny sposób: iteruję k-krotnie walidację krzyżową z nowymi losowymi podziałami i obliczam wydajność tak jak zwykle dla każdej iteracji. Ogólne próbki testowe są wtedy takie same dla każdej iteracji, a różnice pochodzą z różnych podziałów danych.
Zgłaszam to np. Jako 5–95 percentyl zaobserwowanej wydajności wrt. wymiana do próbki dla nowych próbek i omów to jako miarę niestabilności modelu.nk−1
Uwaga dodatkowa: I tak nie mogę używać formuł wymagających wielkości próbki. Ponieważ moje dane mają strukturę skupioną lub hierarchiczną (wiele podobnych, ale nie powtarzanych pomiarów tego samego przypadku, zwykle kilka [sto] różnych lokalizacji tej samej próbki), nie znam efektywnej wielkości próby.
porównanie do ładowania początkowego:
iteracje używają nowych losowych podziałów.
główna różnica polega na ponownym próbkowaniu z (bootstrap) lub bez (cv) zastępowania.
≈
bootstrap ma przewagę nad cv pod względem niektórych właściwości statystycznych (asymptotycznie poprawne, być może potrzebujesz mniej iteracji, aby uzyskać dobre oszacowanie)
jednak z cv masz tę przewagę, że masz to zagwarantowane
- liczba różnych próbek treningowych jest taka sama dla wszystkich modeli (ważne, jeśli chcesz obliczyć krzywe uczenia się)
- każda próbka jest testowana dokładnie raz w każdej iteracji
niektóre metody klasyfikacji odrzucają powtarzające się próbki, więc ładowanie nie ma sensu
Wariancja wykonania
krótka odpowiedź: tak, sensowne jest mówienie o wariancji w sytuacji, gdy istnieją tylko {0,1} wyniki.
Spójrz na rozkład dwumianowy (k = sukcesy, n = testy, p = prawdziwe prawdopodobieństwo sukcesu = średnia k / n):
σ2(k)=np(1−p)
pp^
- Fleiss: Metody statystyczne dla stawek i proporcji
- Forthofer i Lee: Biostatistics ma miłe wprowadzenie.
p^=kn
σ2(p^)=p(1−p)n
Oznacza to, że niepewność pomiaru wydajności klasyfikatora zależy tylko od rzeczywistej wydajności p testowanego modelu i liczby próbek testowych.
W ramach weryfikacji krzyżowej zakładasz
że modele k „zastępcze” mają taką samą prawdziwą wydajność jak „prawdziwy” model, który zwykle buduje się ze wszystkich próbek. (Załamaniem tego założenia jest dobrze znane nastawienie pesymistyczne).
że modele k „zastępcze” mają taką samą rzeczywistą wydajność (są równoważne, mają stabilne predykcje), więc można łączyć wyniki testów k.
Oczywiście wówczas można połączyć nie tylko modele „zastępcze” jednej iteracji cv, ale także modele ki iteracji k-fold cv.
Dlaczego iterować?
Najważniejsze, co mówią ci iteracje, to niestabilność modelu (przewidywania), tj. Wariancja prognoz różnych modeli dla tej samej próbki.
p^
Tak, to ważna informacja.
nbootstrapk⋅niter. cvn−1≈nσ2(p^)=p(1−p)n
pknp^n
Jeśli zaobserwujesz niestabilność modelu, średnia pula jest lepszym oszacowaniem prawdziwej wydajności. Różnica między iteracjami jest ważną informacją i można ją porównać z oczekiwaną minimalną wariancją dla zestawu testowego o rozmiarze n z prawdziwą średnią wydajnością wydajności we wszystkich iteracjach.