Natknąłem się na scenariusz, w którym mam 10 sygnałów / osobę na 10 osób (czyli 100 próbek) zawierających 14000 punktów danych (wymiarów), które muszę przekazać klasyfikatorowi. Chciałbym zmniejszyć wymiarowość tych danych, a PCA wydaje się być na to dobrym sposobem. Jednak udało mi się znaleźć tylko przykłady PCA, w których liczba próbek jest większa niż liczba wymiarów. Korzystam z aplikacji PCA, która wyszukuje komputery za pomocą SVD. Gdy go przekazuję, zestaw danych 100x14000 zwraca 101 komputerów, więc zdecydowana większość wymiarów jest oczywiście ignorowana. Program wskazuje, że pierwsze 6 komputerów zawiera 90% wariancji.
Czy uzasadnione jest założenie, że te 101 komputerów zawiera zasadniczo całą wariancję, a pozostałe wymiary są pomijalne?
W jednym z artykułów, które czytałem, twierdzi się, że przy użyciu podobnego (choć nieco niższej jakości) zestawu danych niż mój własny, udało się zmniejszyć 4500 wymiarów do 80, zachowując 96% oryginalnej informacji. Papierowe falowanie nad szczegółami zastosowanej techniki PCA, dostępnych było tylko 3100 próbek, i mam powód, by sądzić, że mniej próbek zostało wykorzystanych do faktycznego wykonania PCA (w celu usunięcia błędu systematycznego z fazy klasyfikacji).
Czy czegoś brakuje? Wszelkie opinie będą mile widziane.