Mam zestaw danych, dla którego mam wiele zestawów etykiet binarnych. Dla każdego zestawu etykiet uczę klasyfikatora, oceniając go poprzez walidację krzyżową. Chcę zmniejszyć wymiarowość za pomocą analizy głównych składników (PCA). Moje pytanie brzmi:
Czy możliwe jest wykonanie PCA raz dla całego zestawu danych, a następnie użycie nowego zestawu danych o niższych wymiarach do weryfikacji krzyżowej, jak opisano powyżej? Czy też muszę zrobić osobny PCA dla każdego zestawu treningowego (co oznaczałoby zrobienie osobnego PCA dla każdego klasyfikatora i dla każdego foldu walidacji krzyżowej)?
Z jednej strony PCA nie korzysta z etykiet. Z drugiej strony wykorzystuje dane testowe do transformacji, więc obawiam się, że mogłoby to wpłynąć na wyniki.
Powinienem wspomnieć, że oprócz zaoszczędzenia trochę pracy, wykonanie PCA raz dla całego zestawu danych pozwoliłoby mi wizualizować zestaw danych dla wszystkich zestawów etykiet jednocześnie. Jeśli mam inny PCA dla każdego zestawu etykiet, musiałbym wizualizować każdy zestaw etykiet osobno.
caret
pakiecie R z pakietem: PCA i k-fold Cross Validation w Caret .