Różnica między PCA a grupowaniem widmowym dla małego zestawu próbek cech logicznych

10

Mam zestaw danych 50 próbek. Każda próbka składa się z 11 (prawdopodobnie skorelowanych) cech logicznych. Chciałbym przedstawić, w jaki sposób wizualizować te próbki na wykresie 2D i sprawdzić, czy wśród 50 próbek znajdują się klastry / grupy.

Wypróbowałem następujące dwa podejścia:

(a) Uruchom PCA na matrycy 50x11 i wybierz pierwsze dwa główne elementy. Projektuj dane na wykresie 2D i uruchamiaj proste środki K w celu identyfikacji klastrów.

(b) Skonstruuj macierz podobieństwa 50 x 50 (cosinus). Ponownie uruchom grupowanie widmowe w celu zmniejszenia wymiarów, a następnie ponownie środki K.

Jaka jest różnica koncepcyjna między wykonaniem bezpośredniego PCA a użyciem wartości własnych macierzy podobieństwa? Czy jedno jest lepsze od drugiego?

Czy są też lepsze sposoby wizualizacji takich danych w 2D? Ponieważ mój rozmiar próbki jest zawsze ograniczony do 50, a mój zestaw funkcji jest zawsze w zakresie 10-15, jestem gotów wypróbować wiele podejść w locie i wybrać najlepszy.

Powiązane pytanie: Grupowanie próbek według grupowania lub PCA

— użytkownik2602740
źródło

9

Jaka jest różnica koncepcyjna między wykonaniem bezpośredniego PCA a użyciem wartości własnych macierzy podobieństwa?

PCA odbywa się na macierzy kowariancji lub korelacji, ale grupowanie widmowe może przyjmować dowolną macierz podobieństwa (np. Zbudowaną z podobieństwem kosinusowym) i znajdować tam klastry.

Po drugie, algorytmy grupowania widmowego opierają się na podziale grafów (zazwyczaj chodzi o znalezienie najlepszych cięć wykresu), podczas gdy PCA znajduje kierunki, które mają największą wariancję. Chociaż w obu przypadkach znajdujemy wektory własne, podejścia koncepcyjne są różne.

Wreszcie widzę, że PCA i klastry spektralne służą różnym celom: jeden jest techniką redukcji wymiarów, a drugi jest bardziej podejściem do grupowania (ale odbywa się to poprzez redukcję wymiarów)

— Aleksiej Grigoriew
źródło

5

W przypadku funkcji boolowskich (tj. Kategorialnych z dwiema klasami) dobrą alternatywą do korzystania z PCA jest użycie analizy wielokrotnej korespondencji (MCA), która jest po prostu rozszerzeniem PCA na zmienne kategoryczne (patrz pokrewny wątek ). Aby zapoznać się z podstawowymi informacjami na temat MCA, artykuły są Husson i in. (2010) lub Abdi i Valentin (2007) . Doskonałym pakietem R do wykonywania MCA jest FactoMineR . Zapewnia narzędzia do kreślenia dwuwymiarowych map obciążeń obserwacji na głównych komponentach, co jest bardzo wnikliwe.

Poniżej znajdują się dwa przykłady map z jednego z moich wcześniejszych projektów badawczych (narysowanych za pomocą ggplot2). Miałem tylko około 60 obserwacji i dało to dobre wyniki. Pierwsza mapa reprezentuje obserwacje w przestrzeni PC1-PC2, druga mapa w przestrzeni PC3-PC4 ... Zmienne są również reprezentowane na mapie, co pomaga w interpretacji znaczenia wymiarów. Zebranie wglądu w kilka z tych map może dać całkiem niezły obraz tego, co dzieje się w twoich danych.

Na powyższej stronie internetowej znajdziesz również informacje na temat nowej procedury HCPC, która oznacza Hierarchiczne grupowanie głównych składników i która może być dla Ciebie interesująca. Zasadniczo ta metoda działa w następujący sposób:

wykonać MCA,
zachowaj pierwszy $k$ wymiary (gdzie $k<p$ , z $p$ oryginalna liczba funkcji). Ten krok jest przydatny, ponieważ usuwa pewne zakłócenia, a zatem umożliwia bardziej stabilne grupowanie,
wykonać aglomeracyjne (oddolne) hierarchiczne grupowanie w przestrzeni zachowanych komputerów. Ponieważ używasz współrzędnych rzutów obserwacji w przestrzeni PC (liczby rzeczywiste), możesz użyć odległości euklidesowej, z kryterium Warda dla połączenia (minimalny wzrost wariancji wewnątrz gromady). Możesz wyciąć dendogram na wybranej wysokości lub pozwolić, aby funkcja R wycięła, jeśli opierasz się na heurystyce,
(opcjonalnie) ustabilizuj klastry, wykonując grupowanie w kształcie litery K. Początkowa konfiguracja jest podana przez centra klastrów znalezione w poprzednim kroku.

Następnie masz wiele sposobów na badanie klastrów (najbardziej reprezentatywne cechy, najbardziej reprezentatywne osoby itp.)

— Antoine
źródło