Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można podzielić dzielnice mieszkaniowe i jakie są ich unikalne cechy. Informacje te mogą ułatwić planowanie miasta.
Na podstawie kilku przykładów (por. Ten post na blogu: PCA i K-oznacza Clustering of Delta Aircraft ), wymyśliłem sposób na przeprowadzenie analizy:
Najpierw wykonaj analizę PCA.
Określ liczbę unikalnych grup (klastrów) na podstawie wyników PCA (np. Stosując metodę „łokcia” lub alternatywnie liczbę składników, która wyjaśnia 80 do 90% całkowitej wariancji).
Po określeniu liczby klastrów zastosuj klastrowanie k-średnich, aby dokonać klasyfikacji.
Moje pytania: wydawało się, że liczba komponentów PCA jest związana z analizą klastrów. Więc to prawda, jeśli powiedzmy, że 5 komponentów PCA wyjaśniło ponad 90% zmienności wszystkich funkcji, wówczas zastosowalibyśmy k-średnich i uzyskalibyśmy 5 klastrów. Czy więc 5 grup dokładnie odpowiada 5 składnikom w analizie PCA?
Innymi słowy, wydaje mi się, że moje pytanie brzmi: jaki jest związek między analizą PCA a klastrowaniem k-średnich?
Aktualizacje: Dzięki wkładom Emre'a, Xeona i Kirilla. Więc obecne odpowiedzi:
Wykonanie PCA przed analizą klastrowania jest również przydatne do redukcji wymiarowości jako ekstraktora cech i wizualizacji / ujawniania klastrów.
Wykonanie PCA po klastrowaniu może zweryfikować algorytm klastrowania (odniesienie: Analiza głównego składnika jądra ).
Czasami stosuje się PCA w celu zmniejszenia wymiarów zbioru danych przed grupowaniem. Jednak Yeung i Ruzzo (2000) wykazali, że grupowanie za pomocą komputera zamiast oryginalnych zmiennych niekoniecznie poprawia jakość klastra. W szczególności pierwsze kilka komputerów PC (które zawierają większość zmian danych) niekoniecznie przechwytuje większość struktury klastra.
- Yeung, Ka Yee i Walter L. Ruzzo. Badanie empiryczne dotyczące analizy głównych składników dla grupowania danych dotyczących ekspresji genów. Raport techniczny, Wydział Informatyki i Inżynierii, University of Washington, 2000. ( pdf )
Wydawało się, że PCA jest konieczne przed dwuetapową analizą grupowania . Na podstawie Ibes (2015), w którym przeprowadzono analizę skupień z wykorzystaniem czynników określonych w PCA.
- Ibes, Dorothy C. Wielowymiarowa klasyfikacja i analiza równości systemu parku miejskiego: nowatorska metodologia i zastosowanie studium przypadku. Krajobraz i urbanistyka , tom 137, maj 2015, strony 122–137.