Wybieranie „odpowiedniej” liczby komponentów w PCA można wykonać elegancko za pomocą analizy równoległej Horn (PA). Dokumenty pokazują, że kryterium to konsekwentnie przewyższa zasady praktyczne, takie jak kryterium łokcia lub reguła Kaisera. Pakiet R „paran” ma implementację PA, która wymaga tylko kilku kliknięć myszką.
Oczywiście, ile składników zachowujesz, zależy od celów redukcji danych. Jeśli chcesz zachować tylko wariancję, która jest „znacząca”, PA zapewni optymalną redukcję. Jeśli chcesz zminimalizować utratę informacji w oryginalnych danych, powinieneś jednak zachować wystarczającą liczbę składników, aby pokryć 95% wyjaśnionej wariancji. Pozwoli to oczywiście zachować znacznie więcej komponentów niż PA, chociaż w przypadku zestawów danych o dużych wymiarach zmniejszenie wymiarów będzie nadal znaczne.
Ostatnia uwaga na temat PCA jako problemu „wyboru modelu”. Nie do końca zgadzam się z odpowiedzią Piotra. Istnieje wiele prac, które przeformułowały PCA jako problem typu regresji, takie jak rzadki PCA, rzadki probabilistyczny PCA lub ScotLASS. W tych „opartych na modelu” rozwiązaniach PCA obciążenia są parametrami, które można ustawić na 0 za pomocą odpowiednich warunków karnych. Przypuszczalnie w tym kontekście byłoby również możliwe obliczenie statystyk typu AIC lub BIC dla rozważanego modelu.
Podejście to teoretycznie może obejmować model, w którym na przykład dwa komputery PC są nieograniczone (wszystkie ładunki niezerowe), w porównaniu z modelem, w którym PC1 jest nieograniczony, a PC2 ma wszystkie ładunki ustawione na 0. Byłoby to równoważne z wnioskiem, czy PC2 jest redundantny ogólnie rzecz biorąc.
Referencje (PA) :
- Dinno, A. (2012). paran: Test Horn's Principal Components / Factors. Wersja pakietu R 1.5.1. http://CRAN.R-project.org/package=paran
- Horn JL 1965. Uzasadnienie i test na liczbę czynników w analizie czynnikowej. Psychometrika . 30: 179–185
- Hubbard, R. i Allen SJ (1987). Empiryczne porównanie alternatywnych metod ekstrakcji głównych składników. Journal of Business Research, 15 , 173–190.
- Zwick, WR i Velicer, WF 1986. Porównanie pięciu zasad określania liczby komponentów do zachowania. Biuletyn Psychologiczny. 99 : 432–442