Mam zestaw danych 50 próbek. Każda próbka składa się z 11 (prawdopodobnie skorelowanych) cech logicznych. Chciałbym przedstawić, w jaki sposób wizualizować te próbki na wykresie 2D i sprawdzić, czy wśród 50 próbek znajdują się klastry / grupy.
Wypróbowałem następujące dwa podejścia:
(a) Uruchom PCA na matrycy 50x11 i wybierz pierwsze dwa główne elementy. Projektuj dane na wykresie 2D i uruchamiaj proste środki K w celu identyfikacji klastrów.
(b) Skonstruuj macierz podobieństwa 50 x 50 (cosinus). Ponownie uruchom grupowanie widmowe w celu zmniejszenia wymiarów, a następnie ponownie środki K.
Jaka jest różnica koncepcyjna między wykonaniem bezpośredniego PCA a użyciem wartości własnych macierzy podobieństwa? Czy jedno jest lepsze od drugiego?
Czy są też lepsze sposoby wizualizacji takich danych w 2D? Ponieważ mój rozmiar próbki jest zawsze ograniczony do 50, a mój zestaw funkcji jest zawsze w zakresie 10-15, jestem gotów wypróbować wiele podejść w locie i wybrać najlepszy.
Powiązane pytanie: Grupowanie próbek według grupowania lub PCA