W The Elements of Statistics Learning znalazłem następujące stwierdzenie:
Istnieje jedna kwalifikacja: wstępne pomiary bez nadzoru można wykonać przed pominięciem próbek. Na przykład, moglibyśmy wybrać 1000 predyktorów o największej wariancji we wszystkich 50 próbkach przed rozpoczęciem walidacji krzyżowej. Ponieważ to filtrowanie nie obejmuje etykiet klas, nie zapewnia nieuczciwej przewagi predyktorom.
Czy to jest rzeczywiście ważne? Mam na myśli to, że filtrując atrybuty wcześniej, nie naśladujemy danych szkoleniowych / nowego środowiska danych - czy to ma znaczenie, że filtrowanie, które wykonujemy, nie jest nadzorowane? Czy nie lepiej jest wykonać wszystkie etapy wstępnego przetwarzania w ramach procesu weryfikacji krzyżowej? Jeśli tak nie jest, oznacza to, że wszystkie wcześniejsze nadzorowanie bez nadzoru można wykonać wcześniej, w tym normalizację funkcji / PCA itp. Ale robiąc to na całym zestawie treningowym, w rzeczywistości wyciekamy niektóre dane do zestawu treningowego. Zgadzam się, że przy stosunkowo stabilnym zbiorze danych różnice te najprawdopodobniej są bardzo małe - ale to nie znaczy, że nie istnieją, prawda? Jaki jest właściwy sposób myślenia o tym?