Caret - Wielokrotna walidacja krzyżowa K-zagnieżdżenia w porównaniu z zagnieżdżoną walidacją krzyżową K-krotną, powtórzona n-razy

Daszek pakiet jest genialna biblioteka R do budowy wielu modeli uczenia maszynowego i ma kilka funkcji dla budynku modelu i oceny. Do dostrajania parametrów i treningu modeli pakiet Caret oferuje „repeatcv” jako jedną z metod.

Dobrą praktyką jest dostrajanie parametrów za pomocą zagnieżdżonej krzyżowej weryfikacji K-fold, która działa w następujący sposób:

Podziel zestaw treningowy na podzbiory „K”
W każdej iteracji weź podzbiory „K minus 1” do treningu modelu i zachowaj 1 podzbiór (zestaw wstrzymania) do testowania modelu.
Następnie podziel zestaw treningowy „K minus 1” na podzbiory „K” i iteracyjnie użyj nowego podzbioru „K minus 1” i „zestawu sprawdzania poprawności” do dostrajania parametrów (wyszukiwanie siatki). Najlepszy parametr określony w tym kroku służy do testowania blokady ustalonej w kroku 2.

Z drugiej strony, zakładam, że powtarzana krzyżowa walidacja K-krotna może powtarzać krok 1 i 2 powtarzalnie, tyle razy, ile zdecydujemy się znaleźć wariancję modelu.

Jednak przeglądając algorytm w podręczniku, wygląda na to, że metoda „repeatcv” może również wykonywać zagnieżdżoną weryfikację krzyżową K-fold, oprócz powtarzania krzyżowej weryfikacji.

Moje pytania to:

Czy moje podejście do metody Caret „powtarzane CV” jest prawidłowe?
Jeśli nie, czy mógłbyś podać przykład użycia zagnieżdżonej krzyżowej weryfikacji K-fold z metodą „repeatcv” przy użyciu pakietu Caret?

Edytować:

W tym artykule metodologicznym wyjaśniono i porównano różne strategie walidacji krzyżowej.

Krstajic D, Buturovic LJ, Leahy DE i Thomas S : Pułapki związane z walidacją krzyżową przy wyborze i ocenie modeli regresji i klasyfikacji . Journal of Cheminformatics 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10

Interesuje mnie „Algorytm 2: powtarzana krzyżowa walidacja zagnieżdżona” i „Algorytm 3: powtarzane krzyżowe sprawdzanie poprawności wyszukiwania siatki dla wyboru zmiennych i dostrajania parametrów” za pomocą pakietu Caret.

cross-validation caret

— Mani
źródło

Nie ma nic złego w przedstawionym (zagnieżdżonym) algorytmie, a tak naprawdę prawdopodobnie działałby dobrze z przyzwoitą odpornością na problem wariancji odchylenia w różnych zestawach danych. Nigdy nie powiedziałeś jednak, że czytelnik powinien założyć, że funkcje, z których korzystasz, są najbardziej „optymalne”, więc jeśli nie jest to nieznane, należy rozwiązać pewne problemy z wyborem funkcji.

FUNKCJA / WYBÓR PARAMETRU

$wrapper$ $filter$ która wykorzystuje inną metodę, która jest daleko od klasyfikatora / modelu, jako próbę zminimalizowania błędu selekcji cech (parametrów). Sprawdź zawijanie względem filtrowania i stronniczości selekcji podczas wyboru funkcji (GJ McLachlan).

$\mathcal{D}_1$ $\mathcal{D}_2$ $n=50$ $\pi=0.1n, 0.2n, 0,3n, 0.4n, 0.5n$

OPTYMALIZACJA / MINIMALIZACJA

$y=f(x_1, x_2, \ldots, x_j)$ $y$ jest stale skalowane. Biorąc to pod uwagę i biorąc pod uwagę potrzebę zminimalizowania błędu systematycznego w prognozach (błąd selekcji, wariancja błędu, wyciek informacji z obiektów testowych do obiektów szkoleniowych itp.), Możesz rozważyć zastosowanie CV podczas korzystania z metod inteligencji roju, takich jak optymalizacja roju cząstek (PSO), optymalizacja kolonii mrówek itp. PSO (patrz Kennedy i Eberhart, 1995) dodaje parametry do wymiany informacji społecznych i kulturowych między cząsteczkami latającymi przez przestrzeń parametrów podczas nauki. Gdy zapoznasz się z metodami inteligencji roju, zobaczysz, że możesz pokonać wiele błędów w określaniu parametrów. Wreszcie nie wiem, czy istnieje przypadkowe podejście lasu (RF, patrz Breiman, Journ. Of Machine Learning) w celu przybliżenia funkcji, ale jeśli istnieje,

— JoleT
źródło