Ponieważ PO naliczył nagrodę za to pytanie, powinien zwrócić na siebie uwagę, a zatem jest właściwym miejscem do dyskusji na temat ogólnych pomysłów, nawet jeśli nie udzieli bezpośredniej odpowiedzi na PO.
Imiona:
a) walidacja krzyżowa to ogólna nazwa wszystkich technik szacowania / pomiaru, które wykorzystują zestaw testowy inny niż zestaw pociągu. Synonim: szacunki poza próbą lub poza próbą. Antonim: oszacowanie w próbie.
Oszacowanie w próbie to techniki, które wykorzystują pewne informacje o zestawie szkoleniowym do oszacowania jakości modelu (niekoniecznie błąd). Jest to bardzo częste, jeśli model ma duże odchylenie - to znaczy - opiera się na silnych założeniach dotyczących danych. W modelach liniowych (model o dużym odchyleniu), tak jak w przykładzie pytania, jako miarę jakości modelu stosuje się R-kwadrat, AIC, BIC, dewiację - wszystko to są estymatory w próbie. Na przykład w SVM dane o stosunku w wektorze pomocniczym do liczby danych to oszacowanie błędu modelu w próbie.
Istnieje wiele technik krzyżowej weryfikacji:
b) wstrzymanie jest metodą nr 1 powyżej. Podziel zestaw na trening i jeden test. Długa historia dyskusji i praktyk dotyczących względnych rozmiarów zestawu szkoleniowego i testowego.
c) k- fold - metoda nr 2 powyżej. Dość standardowy.
d) Leave-one-out - metoda nr 3 powyżej.
e) bootstrap : jeśli twój zestaw ma N danych, losowo wybierz N próbek Z WYMIANY i użyj go jako treningu. Dane z oryginalnego zestawu, które nie były próbkami, są wykorzystywane jako zestaw testowy. Istnieją różne sposoby obliczenia ostatecznego oszacowania błędu modelu, który wykorzystuje zarówno błąd zestawu testowego (poza próbą), jak i błąd zestawu pociągu (w próbie). Zobacz na przykład bootstrap .632. Myślę, że istnieje również formuła .632+ - są to formuły, które szacują prawdziwy błąd modelu przy użyciu błędów zarówno poza próbą, jak i w próbie.
f) Ortogonalnym względem wyboru powyższej metody jest kwestia powtórzeń. Z wyjątkiem pominięcia, wszystkie powyższe metody można powtórzyć dowolną liczbę razy. W rzeczywistości można mówić o POWTARZANIU blokowania lub POWTARZANIU k- fold. Szczerze mówiąc, prawie zawsze metoda ładowania początkowego jest używana w powtarzalny sposób.
Kolejne pytanie brzmi, która metoda jest „lepsza”. Problem polega na tym, co znaczy „lepszy”.
1) Pierwsza odpowiedź brzmi, czy każda z tych metod jest tendencyjna do oszacowania błędu modelu (dla nieskończonej ilości przyszłych danych).
2) Drugą alternatywą jest to, jak szybko lub jak dobrze każda z tych metod zbiega się z błędem prawdziwego modelu (jeśli nie są stronnicze). Uważam, że wciąż jest to temat badań. Wskażę te dwa artykuły (za ścianą płatniczą), ale streszczenie pozwala nam zrozumieć, co starają się osiągnąć. Zauważ też, że bardzo często wywoływane jest k- fold jako „cross-validation”.
Prawdopodobnie istnieje wiele innych artykułów na te tematy. To tylko niektóre przykłady.
3) Kolejnym aspektem „lepszego” jest: biorąc pod uwagę konkretną miarę błędu modelu przy użyciu jednej z powyższych technik, czy można być pewnym, że prawidłowy błąd modelu jest bliski.
Ogólnie rzecz biorąc, w tym przypadku chcesz podjąć wiele pomiarów błędu i obliczyć przedział ufności (lub wiarygodny przedział, jeśli zastosujesz podejście bayesowskie). W tym przypadku problemem jest to, na ile można ufać wariancji zestawu miar błędów. Zauważ, że oprócz pominięcia , wszystkie powyższe techniki dadzą ci wiele różnych miar ( k miar dla k- fold, n miar dla n- powtarzanego wstrzymania), a zatem możesz zmierzyć wariancję (lub odchylenie standardowe ) tego zestawu i obliczyć przedział ufności dla miary błędu.
Tutaj sprawy się komplikują. Z tego, co rozumiem z artykułu Bez obiektywnego estymatora wariancji krzyżowej walidacji k -fold (nie za paywall), nie można ufać wariancji otrzymanej z k- fold - więc nie można zbudować dobrego przedziału ufności z k - marszczenie. Również z tego, co rozumiem z artykułu Przybliżone testy statystyczne do porównywania nadzorowanych algorytmów uczenia się klasyfikacji (nie za zaporą), techniki wykorzystujące powtarzane miary (powtarzane k-fold, powtarzane wstrzymanie - nie jestem pewien co do bootstrap) nie oszacuje prawdziwej wariancji miary błędu (dość łatwo to zauważyć - ponieważ próbujesz ze zbioru skończonego, jeśli powtórzysz takt bardzo dużą liczbę razy te same wartości będą się powtarzać, co utrzyma średnią tę samą, ale zmniejszy wariancję). Zatem techniki powtarzanych pomiarów będą zbyt optymistyczne w odniesieniu do przedziału ufności.
Ten ostatni artykuł sugeruje wykonanie 5 powtórzeń 2-krotnie - które nazywa CV 5 × 2 - jako dobrą równowagę wielu taktów (10), ale nie za dużo powtórzeń.
EDYTOWAĆ:
Oczywiście istnieją świetne odpowiedzi w Cross Validated na niektóre z tych pytań (chociaż czasami nie są ze sobą zgodne). Oto niektóre:
Cross-validation lub bootstrapping w celu oceny wydajności klasyfikacji?
Różnice między walidacją krzyżową a ładowaniem początkowym w celu oszacowania błędu prognozowania
Cross-validation lub bootstrapping w celu oceny wydajności klasyfikacji?
Opis ładowania początkowego do sprawdzania poprawności i wyboru modelu
Ogólnie rzecz biorąc, sprawdzanie poprawności tagu jest tutaj Twoim przyjacielem.
Jakie jest najlepsze rozwiązanie? Nie wiem Używam CV 5 × 2, kiedy muszę być bardzo rygorystyczny, kiedy muszę mieć pewność, że jedna technika jest lepsza od drugiej, szczególnie w publikacjach. I używam blokady, jeśli nie planuję dokonywać pomiaru wariancji lub odchylenia standardowego, lub jeśli mam ograniczenia czasowe - w blokadzie jest tylko jeden model uczenia się .