Ostatnio dużo czytałem na tej stronie (@Aniko, @Dikran Marsupial, @Erik) i gdzie indziej na temat problemu nadmiaru występującego przy krzyżowej walidacji - (Smialowski i in. 2010 Bioinformatics, Hastie, Elementy uczenia statystycznego). Sugeruje się, że każdy nadzorowany wybór funkcji (przy użyciu korelacji z etykietami klas) wykonywany poza oszacowaniem wydajności modelu za pomocą walidacji krzyżowej (lub innej metody szacowania modelu, takiej jak ładowanie początkowe) może spowodować przeregulowanie.
Wydaje mi się to nieintuicyjne - na pewno, jeśli wybierzesz zestaw funkcji, a następnie ocenisz model przy użyciu tylko wybranych funkcji za pomocą weryfikacji krzyżowej, wówczas otrzymujesz obiektywne oszacowanie ogólnej wydajności modelu w odniesieniu do tych funkcji (zakłada to, że badana próbka jest reprezentatywna ludności)?
Dzięki tej procedurze nie można oczywiście twierdzić, że zestaw funkcji jest optymalny, ale czy można zgłosić wydajność wybranego zestawu funkcji na niewidzialnych danych jako prawidłową?
Zgadzam się z tym, że wybór funkcji na podstawie całego zestawu danych może spowodować wyciek danych między zestawem testowym a zestawem pociągów. Ale jeśli zestaw funkcji jest statyczny po początkowym wyborze i nie jest wykonywane żadne inne dostrojenie, to z pewnością poprawne jest raportowanie wskaźników wydajności zweryfikowanych krzyżowo?
W moim przypadku mam 56 funkcji i 259 skrzynek, więc # skrzynki> # cechy. Funkcje pochodzą z danych czujnika.
Przepraszam, jeśli moje pytanie wydaje się pochodne, ale wydaje się to istotną kwestią do wyjaśnienia.
Edycja: po wdrożeniu wyboru funkcji w ramach weryfikacji krzyżowej na zestawie danych wyszczególnionym powyżej (dzięki odpowiedziom poniżej), mogę potwierdzić, że wybór funkcji przed weryfikacją krzyżową w tym zestawie danych wprowadził znaczącystronniczość. To uprzedzenie / nadmierne dopasowanie było największe, gdy robiono to dla preparatu 3-klasowego, w porównaniu do preparatu 2-klasowego. Myślę, że fakt, że użyłem regresji krokowej do wyboru funkcji, wzmógł to przeregulowanie; dla celów porównawczych na innym, ale powiązanym zbiorze danych porównałem sekwencyjną procedurę wybierania cech do przodu wykonaną przed weryfikacją krzyżową z wynikami, które wcześniej uzyskałem z wyborem cech w CV. Wyniki między obiema metodami nie różniły się drastycznie. Może to oznaczać, że regresja krokowa jest bardziej podatna na nadmierne dopasowanie niż sekwencyjny FS lub może być dziwactwem tego zestawu danych.