Podstawową ideą przy użyciu PCA jako narzędzia do wyboru cech jest wybór zmiennych zgodnie z wielkością (od największej do najmniejszej wartości bezwzględnej) ich współczynników ( ładunków ). Możesz sobie przypomnieć, że PCA dąży do zastąpienia zmiennych (mniej lub bardziej skorelowanych) przez nieskorelowanych kombinacji liniowych (rzutów) zmiennych pierwotnych. Zignorujmy, jak wybrać optymalną wartość dla danego problemu. Te głównych składników są uszeregowane według ważności według ich wyjaśnionej wariancji, a każda zmienna przyczynia się w różnym stopniu do każdego składnika. Zastosowanie kryteriów największej wariancji byłoby podobne do ekstrakcji funkcjik < p k k j < p j ppk < pkk , w których główny składnik są używane jako nowe funkcje zamiast oryginalnych zmiennych. Możemy jednak zdecydować, aby zachować tylko pierwszy składnik i wybrać zmienne , które mają najwyższy współczynnik bezwzględny; liczba może być oparta na proporcji liczby zmiennych (np. zachowaj tylko górne 10% zmiennych ) lub stałej wartości granicznej (np. biorąc pod uwagę próg znormalizowanych współczynników). To podejście jest trochę podobne do operatora Lasso w regresji karnej (lub regresji PLS ). Jednak ani wartość , ani liczba komponentów do zachowania nie są oczywistymi wyborami.j < pjotpjot
Problem z użyciem PCA polega na tym, że (1) pomiary ze wszystkich pierwotnych zmiennych są stosowane w rzutowaniu do przestrzeni o niższych wymiarach, (2) brane są pod uwagę tylko zależności liniowe oraz (3) metody oparte na PCA lub SVD, jak również jako metody przesiewowe jednowymiarowe (test t, korelacja itp.) nie biorą pod uwagę potencjalnej wielowymiarowej natury struktury danych (np. interakcji wyższego rzędu między zmiennymi).
W odniesieniu do punktu 1 zaproponowano kilka bardziej skomplikowanych metod przesiewowych, na przykład analizę głównych cech lub metodę etapową, taką jak ta stosowana do „ golenia genów ” w badaniach nad ekspresją genów. Również rzadkie PCA może być użyte do przeprowadzenia redukcji wymiarów i wyboru zmiennych na podstawie uzyskanych obciążeń zmiennych. Jeśli chodzi o punkt 2, można zastosować jądro PCA (używając sztuczki jądra ), jeśli trzeba osadzić relacje nieliniowe w przestrzeni o niższych wymiarach. Drzewa decyzyjne , a ściślej algorytm losowego lasu , są prawdopodobnie w stanie lepiej rozwiązać punkt 3. Ten ostatni pozwala uzyskać miary o różnym znaczeniu oparte na Gini lub permutacji .
Ostatni punkt: jeśli zamierzasz dokonać wyboru funkcji przed zastosowaniem modelu klasyfikacji lub regresji, pamiętaj o wzajemnym sprawdzeniu poprawności całego procesu (patrz §7.10.2 elementów uczenia statystycznego lub Ambroise i McLachlan, 2002 ).
Ponieważ wydaje się, że interesuje Cię rozwiązanie R, polecam przyjrzeć się pakietowi Caret , który zawiera wiele przydatnych funkcji do wstępnego przetwarzania danych i wyboru zmiennych w kontekście klasyfikacji lub regresji.