Zasadniczo:
Sprawdź swoje prognozy, używając jednego modelu wyszkolonego dla całego zestawu danych (więc istnieje tylko jeden zestaw funkcji). Walidacja krzyżowa służy jedynie do oszacowania wydajności predykcyjnej pojedynczego modelu wyuczonego na całym zestawie danych. Zasadnicze znaczenie w stosowaniu walidacji krzyżowej polega na powtarzaniu w każdej zakładce całej procedury zastosowanej w celu dopasowania do modelu podstawowego, ponieważ w przeciwnym razie może dojść do znacznego optymizmu w zakresie wydajności.
Aby zobaczyć, dlaczego tak się dzieje, rozważ problem klasyfikacji binarnej z 1000 cechami binarnymi, ale tylko ze 100 przypadkami, przy czym wszystkie przypadki i cechy są całkowicie losowe, więc nie ma statystycznego związku między cechami a przypadkami. Jeśli trenujemy model podstawowy na pełnym zbiorze danych, zawsze możemy osiągnąć zerowy błąd w zestawie szkoleniowym, ponieważ jest więcej funkcji niż przypadków. Możemy nawet znaleźć podzbiór funkcji „informacyjnych” (które są przypadkowo skorelowane). Jeśli następnie przeprowadzimy walidację krzyżową przy użyciu tylko tych funkcji, uzyskamy oszacowanie wydajności, które jest lepsze niż losowe zgadywanie. Powodem jest to, że w każdym folderze procedury weryfikacji krzyżowej znajdują się pewne informacje na temat wstrzymanych przypadków wykorzystywanych do testowania, ponieważ cechy zostały wybrane, ponieważ były dobre do przewidywania, wszystkie z nich, w tym przetrzymywane. Oczywiście rzeczywisty poziom błędu wyniesie 0,5.
Jeśli zastosujemy odpowiednią procedurę i dokonamy wyboru funkcji w każdej zakładce, nie będzie już żadnych informacji o wyciągniętych przypadkach w wyborze funkcji użytych w tej zakładce. Jeśli zastosujesz odpowiednią procedurę, w tym przypadku uzyskasz poziom błędu wynoszący około 0,5 (choć będzie on nieco różny dla różnych realizacji zestawu danych).
Dobre artykuły do przeczytania to:
Christophe Ambroise, Geoffrey J. McLachlan, „Bias selekcji w ekstrakcji genów na podstawie danych ekspresji genów mikromacierzy”, PNAS http://www.pnas.org/content/99/10/6562.abstract
co ma duże znaczenie dla PO i
Gavin C. Cawley, Nicola LC Talbot, „O nadmiernym dopasowywaniu w wyborze modelu i późniejszej tendencyjności w selekcji w ocenie wydajności”, JMLR 11 (lipiec): 2079-2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
co pokazuje, że to samo może łatwo wystąpić przy wyborze modelu (np. dostrajanie hiper-parametrów SVM, które również muszą być powtarzane przy każdej iteracji procedury CV).
W praktyce:
Poleciłbym użycie Bagging i użycie błędu „out-of-bag” do oszacowania wydajności. Otrzymasz model komitetu wykorzystujący wiele funkcji, ale tak naprawdę jest to dobra rzecz. Jeśli użyjesz tylko jednego modelu, prawdopodobnie przekroczysz kryterium wyboru funkcji i skończysz na modelu, który daje gorsze prognozy niż model, który używa większej liczby funkcji.
Książka Alana Millersa na temat wyboru podzbiorów w regresji (monografie Chapmana i Halla na temat statystyki i prawdopodobieństwa zastosowanego, tom 95) daje dobrą radę (strona 221), że jeśli wydajność predykcyjna jest najważniejsza, nie wybieraj żadnych cech , zamiast tego użyj regresji grzbietu. I to jest w książce o wyborze podzbiorów !!! ; o)