Muszę zmniejszyć liczbę zmiennych, aby przeprowadzić analizę skupień. Moje zmienne są silnie skorelowane, więc pomyślałem o wykonaniu analizy czynnikowej PCA (analiza głównego składnika). Jeśli jednak użyję uzyskanych wyników, moje klastry nie będą całkiem poprawne (w porównaniu z poprzednimi klasyfikacjami w literaturze).
Pytanie:
Czy mogę użyć macierzy rotacji, aby wybrać zmienne o największym obciążeniu dla każdego komponentu / współczynnika i użyć tylko tych zmiennych dla mojego grupowania?
Pomocne będą również wszelkie odniesienia bibliograficzne.
Aktualizacja:
Kilka wyjaśnień:
Mój cel: muszę przeprowadzić analizę klastrów za pomocą algorytmu dwuetapowego przez SPSS, ale moje zmienne nie są niezależne, więc pomyślałem o odrzuceniu niektórych z nich.
Mój zestaw danych: pracuję nad 15 parametrami skalarnymi (moimi zmiennymi) 100 000 przypadków. Niektóre zmienne są silnie skorelowane ( Pearson)
Moja wątpliwość: ponieważ potrzebuję tylko zmiennych niezależnych, pomyślałem o przeprowadzeniu głównej analizy składowej (przepraszam: błędnie mówiłem o analizie czynnikowej w moim pierwotnym pytaniu, moim błędzie) i wybrałem tylko zmienne o największych obciążeniach dla każdego składnika. Wiem, że proces PCA przedstawia pewne arbitralne kroki, ale dowiedziałem się, że ten wybór jest w rzeczywistości podobny do „ metody B4 ” zaproponowanej przez IT Jolliffe (1972 i 2002) w celu wybrania zmiennych i zasugerowanej również przez JR King i DA Jackson w 1999 r. .
Pomyślałem więc, aby w ten sposób wybrać pewne podgrupy zmiennych niezależnych. Następnie użyję grup do przeprowadzenia różnych analiz skupień i porównuję wyniki.