Jakie są różnice między analizą czynnikową a analizą głównych składników?

214

Wydaje się, że wiele używanych przeze mnie pakietów statystycznych łączy te dwa pojęcia razem. Zastanawiam się jednak, czy istnieją inne założenia lub „formalności” danych, które muszą być zgodne z prawdą, aby stosować je jedna nad drugą. Prawdziwy przykład byłby niezwykle przydatny.

pca factor-analysis

— Brandon Bertelsen
źródło

2

Rozdziały poświęcone analizie głównych składników i analizie czynnikowej w poniższej książce, która jest dostępna w większości bibliotek uniwersyteckich, dokładnie odpowiadają na twoje pytanie: apa.org/pubs/books/4316510.aspx

— user31256

3

Oprócz odpowiedzi poniżej was mogą również przeczytać ten i ten z kopalni.

— ttnphns

2

I kolejne dobre pytanie, takie jak „powinienem użyć PCA lub FA”: stats.stackexchange.com/q/123063/3277 .

— ttnphns

3

@ttnphns: Zachęcam do udzielenia odpowiedzi w tym wątku, być może składającej się z opatrzonej komentarzem listy odpowiedzi w innych powiązanych wątkach. Może to zastąpić powyższe komentarze (obecnie cztery komentarze z linkami) i byłoby bardziej praktyczne, zwłaszcza jeśli krótko dodasz adnotację do każdego linku. Np. Poszukaj wyjaśnienia tego problemu, poszukaj wyjaśnienia tego problemu itp. To tylko sugestia, ale wierzę, że ten wątek bardzo by na tym skorzystał! Szczególną zaletą jest to, że zawsze możesz dodać więcej linków do tej odpowiedzi.

— ameba

2

Podobne pytanie zostało zadane na MathOverflow i otrzymałem odpowiedź, którą uważam za doskonałą: mathoverflow.net/questions/40191/...

— Daniel Moskovich

156

Analiza głównego składnika polega na wyodrębnieniu liniowych kompozytów obserwowanych zmiennych.

Analiza czynnikowa oparta jest na modelu formalnym przewidującym obserwowane zmienne na podstawie teoretycznych czynników ukrytych.

W psychologii te dwie techniki są często stosowane w konstrukcji testów wieloskalowych w celu ustalenia, które przedmioty obciążają poszczególne skale. Zazwyczaj dają one podobne merytoryczne wnioski (dyskusja patrz Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). Pomaga to wyjaśnić, dlaczego niektóre pakiety statystyk wydają się łączyć je ze sobą. Widziałem także sytuacje, w których „analiza głównego elementu” jest nieprawidłowo oznaczona jako „analiza czynnikowa”.

Jeśli chodzi o prostą zasadę , sugeruję, abyś:

Przeprowadź analizę czynnikową, jeśli zakładasz lub chcesz przetestować teoretyczny model czynników ukrytych powodujących obserwowane zmienne.
Uruchom analizę głównych składników Jeśli chcesz po prostu zredukować skorelowane obserwowane zmienne do mniejszego zestawu ważnych niezależnych zmiennych złożonych.

— Jeromy Anglim
źródło

5

Ogólna zasada jest bardzo przydatna. Dziękuję za to.

— Brandon Bertelsen,

1

Odnośnie do zasady praktycznej (1): Czy nie przetestowałbym teoretycznego modelu czynników utajonych za pomocą potwierdzającej analizy czynnikowej zamiast eksploracyjnej fa?

— Rzymian

1

@roman Tak. CFA daje znacznie większą kontrolę nad modelem niż EFA. Np. Możesz ograniczyć ładunki do zera; zrównoważyć obciążenia; mają skorelowane reszty; dodaj czynniki wyższego rzędu; itp.

— Jeromy Anglim

3

@Jeromy Anglim Czy naprawdę słuszne jest stwierdzenie, że PCA tworzy „mniejszy zestaw ważnych niezależnych zmiennych złożonych”. A może powinieneś powiedzieć „mniejszy zestaw ważnych nieskorelowanych zmiennych złożonych”. Jeśli podstawowe dane używane w PCA nie są (wielowymiarowe) normalnie dystrybuowane, dane o zmniejszonych wymiarach będą tylko nieskorelowane?

— FXQuantTrader

1

Drugi kciuk reguły jest łatwy do zdobycia, ale jak zastosować pierwszy? Brzmi może dziwnie, ale kiedy wiem, że chcę „uruchomić model czynnikowy względem obserwowanych zmiennych?

— Ben

48

Z mojej odpowiedzi tutaj:

Czy po PCA następuje obrót (np. Varimax) nadal PCA?

Analiza głównych składników (PCA) i analiza wspólnych czynników (CFA) to odrębne metody. Często dają one podobne wyniki, a PCA jest używana jako domyślna metoda ekstrakcji w procedurach analizy współczynnika SPSS. To niewątpliwie powoduje wiele nieporozumień co do rozróżnienia między nimi.

Najważniejsze jest to, że są to dwa różne modele, koncepcyjnie. W PCA komponenty są rzeczywistymi liniowymi kombinacjami ortogonalnymi, które maksymalizują całkowitą wariancję. W FA czynniki są kombinacjami liniowymi, które maksymalizują wspólną część wariancji - leżące u podstaw „ukrytych konstrukcji”. Dlatego FA jest często nazywany „analizą wspólnego czynnika”. FA korzysta z różnych procedur optymalizacji, a wynik, w przeciwieństwie do PCA, zależy od zastosowanej procedury optymalizacji i punktów początkowych dla tych procedur. Po prostu nie ma jednego unikalnego rozwiązania.

W R funkcja factanal () zapewnia CFA wyodrębnienie maksymalnego prawdopodobieństwa. Nie należy więc oczekiwać, że odtworzy wynik SPSS oparty na ekstrakcji PCA. To po prostu inny model lub logika. Nie jestem pewien, czy uzyskasz ten sam wynik, jeśli użyjesz ekstrakcji Maksymalnego Prawdopodobieństwa SPSS, ponieważ mogą nie używać tego samego algorytmu.

Dla lepszego lub gorszego w R można jednak odtworzyć pomieszaną „analizę czynnikową”, którą SPSS zapewnia jako domyślną. Oto proces w R. Za pomocą tego kodu jestem w stanie odtworzyć wynik „analizy czynnikowej” głównego komponentu SPSS przy użyciu tego zestawu danych. (Z wyjątkiem znaku, który jest nieokreślony). Ten wynik można również obrócić za pomocą dowolnej z dostępnych metod obrotu R.

data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)]  %*% 
  diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

— Brett
źródło

5

Zauważ, że będzie uzyskać takie same rezultaty principal(attitude, 2, rotate="none")z psychopakowania i od tej reguły jest Kayser (EV> 1) nie jest najbardziej zalecany sposób, aby przetestować wymiarowości (to zawyża liczbę czynników).

— chl

5

Tak, wiem, że psychiatra to podsumowuje. Moim celem było pokazanie, co robiła „analiza czynnikowa” SPSS podczas korzystania z metody ekstrakcji głównych komponentów. Zgadzam się, że zasada wartości własnej jest złym sposobem na wybór liczby czynników. Ale właśnie to domyślnie robi SPSS i właśnie to demonstrowałem.

— Brett,

1

factanal()zapewnia EFA, a nie CFA. Z mojego doświadczenia wynika, że ekstrakcja SPSS o maksymalnym prawdopodobieństwie powinna dawać taki sam wynik, ponieważ factanal()nie ma rotacji ukośnej.

— pe-pe-rry

2

Co to znaczy: „W FA czynniki są kombinacjami liniowymi, które maksymalizują wspólną część wariancji - leżące u podstaw„ ukrytych konstrukcji ”. „?

— przypuszcza, że

Należy również zauważyć, że CFA może oznaczać potwierdzający FA (w przeciwieństwie do wyjaśniającego FA ) zamiast wspólnego FA .

— Richard Hardy,

33

Masz rację co do swojego pierwszego punktu, chociaż w FA ogólnie pracujesz z obydwoma (wyjątkowością i wspólnotą). Wybór między PCA i FA jest od dawna debatą wśród psychometrów. Jednak nie do końca podążam za tobą. Obrót głównych osi można zastosować niezależnie od metody zastosowanej do skonstruowania czynników utajonych. W rzeczywistości najczęściej jest to rotacja VARIMAX (rotacja ortogonalna, z uwzględnieniem czynników nieskorelowanych), która jest stosowana ze względów praktycznych (najłatwiejsza interpretacja, najłatwiejsze reguły punktacji lub interpretacja wyników czynników itp.), Chociaż rotacja skośna (np. PROMAX ) prawdopodobnie lepiej odzwierciedla rzeczywistość (konstrukcje utajone często są ze sobą skorelowane), przynajmniej w tradycji FA, w której zakłada się, że utajona konstrukcja jest naprawdę w centrum obserwowanych wzajemnych korelacji między zmiennymi. Chodzi o to, że PCA, po którym następuje rotacja VARIMAX, nieco zniekształca interpretację liniowych kombinacji zmiennych pierwotnych w tradycji „analizy danych” (patrz praca Michela Tenenhausa). Z psychometrycznej perspektywy preferowane są modele FA, ponieważ wyraźnie uwzględniają błędy pomiarowe, podczas gdy PCA nie przejmuje się tym. Krótko mówiąc, używając PCA wyrażasz każdy składnik (czynnik) jako liniową kombinację zmiennych, podczas gdy w FA są to zmienne wyrażone jako liniowe kombinacje czynników (w tym wspólnoty i składniki unikatowe, jak powiedziałeś). Chodzi o to, że PCA, po którym następuje rotacja VARIMAX, nieco zniekształca interpretację liniowych kombinacji zmiennych pierwotnych w tradycji „analizy danych” (patrz praca Michela Tenenhausa). Z psychometrycznej perspektywy preferowane są modele FA, ponieważ wyraźnie uwzględniają błędy pomiarowe, podczas gdy PCA nie przejmuje się tym. Krótko mówiąc, używając PCA wyrażasz każdy składnik (czynnik) jako liniową kombinację zmiennych, podczas gdy w FA są to zmienne wyrażone jako liniowe kombinacje czynników (w tym wspólnoty i składniki unikatowe, jak powiedziałeś). Chodzi o to, że PCA, po którym następuje rotacja VARIMAX, nieco zniekształca interpretację liniowych kombinacji zmiennych pierwotnych w tradycji „analizy danych” (patrz praca Michela Tenenhausa). Z psychometrycznej perspektywy preferowane są modele FA, ponieważ wyraźnie uwzględniają błędy pomiarowe, podczas gdy PCA nie przejmuje się tym. Krótko mówiąc, używając PCA wyrażasz każdy składnik (czynnik) jako liniową kombinację zmiennych, podczas gdy w FA są to zmienne wyrażone jako liniowe kombinacje czynników (w tym wspólnoty i składniki unikatowe, jak powiedziałeś). Preferowane są modele FA, ponieważ jawnie uwzględniają błędy pomiarowe, podczas gdy PCA nie przejmuje się tym. Krótko mówiąc, używając PCA wyrażasz każdy składnik (czynnik) jako liniową kombinację zmiennych, podczas gdy w FA są to zmienne wyrażone jako liniowe kombinacje czynników (w tym wspólnoty i składniki unikatowe, jak powiedziałeś). Preferowane są modele FA, ponieważ jawnie uwzględniają błędy pomiarowe, podczas gdy PCA nie przejmuje się tym. Krótko mówiąc, używając PCA wyrażasz każdy składnik (czynnik) jako liniową kombinację zmiennych, podczas gdy w FA są to zmienne wyrażone jako liniowe kombinacje czynników (w tym wspólnoty i składniki unikatowe, jak powiedziałeś).

Polecam najpierw przeczytać następujące dyskusje na ten temat:

— chl
źródło

7

Wystarczy powiedzieć, że moja odpowiedź może wyglądać trochę nie na temat, ponieważ pytanie to zostało połączone z innym, stats.stackexchange.com/questions/3369/... (początkowo odpowiadam na to drugie).

— chl

6

Ach, zastanawiałem się, dlaczego powiązałeś ten queston w tym pytaniu ... :)

— Brandon Bertelsen,

1

PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition

. Chl, mógłbyś to wyjaśnić? To interesujące.

— ttnphns

32

W sieci istnieje wiele sugerowanych definicji. Oto jeden ze słownika on-line na temat uczenia statystycznego :

Analiza głównych składowych

Konstruowanie nowych funkcji, które są głównymi składnikami zestawu danych. Głównymi składnikami są zmienne losowe o maksymalnej wariancji zbudowane z liniowych kombinacji cech wejściowych. Równolegle są to rzuty na główne osie składowe, które są liniami minimalizującymi średnią kwadratową odległość do każdego punktu w zestawie danych. Aby zapewnić unikalność, wszystkie główne osie komponentów muszą być ortogonalne. PCA to technika maksymalnego prawdopodobieństwa regresji liniowej w obecności szumu Gaussa na wejściach i wyjściach. W niektórych przypadkach PCA odpowiada transformacji Fouriera, takiej jak DCT zastosowany w kompresji obrazu JPEG. Patrz „Eigenfaces for rozpoznanie” (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, ”

Analiza czynników

Uogólnienie PCA oparte wyraźnie na najwyższym prawdopodobieństwie. Podobnie jak PCA, zakłada się, że każdy punkt danych powstaje z próbkowania punktu w podprzestrzeni, a następnie zakłócania go pełnowymiarowym szumem Gaussa. Różnica polega na tym, że analiza czynnikowa pozwala, aby szum miał dowolną ukośną macierz kowariancji, podczas gdy PCA zakłada, że hałas jest kulisty. Oprócz oszacowania podprzestrzeni analiza czynnikowa szacuje macierz kowariancji szumu. Patrz „Algorytm EM dla mieszanin analizatorów czynnikowych”. Wybór wymiarów dla PCA ”.

— Dirk Eddelbuettel
źródło

2

Opis analizy czynnikowej dostaje główny punkt (kowariancja diagonalna), ale historycznie nie został opracowany jako uogólnienie PCA.

— przypuszcza

1

Czyli w zasadzie w PCA jednym z nich jest macierz kowariancji, aw FA macierz korelacji? Zawsze trudno mi znaleźć rzeczywistą matematykę, gdy metody wypracowały wiele terminologii z dziedziny, w której są stosowane. (nie na temat: raz całe popołudnie zajęło mi zrozumienie, czym jest modelowanie ścieżki, dopóki nie znalazłem jednego (1) artykułu z lat 70., w którym podano równanie macierzowe.)

— Mark van der Loo,

28

Najlepsza odpowiedź w tym wątku sugeruje, że PCA jest bardziej techniką redukcji wymiarów, podczas gdy FA jest raczej techniką zmiennej utajonej. To jest sensu ściśle poprawne. Ale wiele odpowiedzi tutaj i wiele zabiegów gdzie indziej przedstawia PCA i FA jako dwie zupełnie różne metody, z odmiennymi, jeśli nie przeciwnymi celami, metodami i wynikami. Nie zgadzam się; Uważam, że kiedy PCA jest uważana za technikę zmiennej utajonej, jest ona dość zbliżona do FA i powinny być lepiej postrzegane jako bardzo podobne metody.

Podałem swoje własne podobieństwo i różnice między PCA i FA w następującym wątku: Czy jest jakiś dobry powód, aby używać PCA zamiast EFA? Czy PCA może również zastąpić analizę czynnikową? Twierdzę tam, że z prostych powodów matematycznych można oczekiwać, że wyniki PCA i FA będą dość podobne, biorąc pod uwagę, że liczba zmiennych nie jest bardzo mała (być może kilkanaście). Zobacz moją [długą!] Odpowiedź w powiązanym wątku, aby uzyskać szczegóły matematyczne i symulacje Monte Carlo. Bardziej zwięzłą wersję mojego argumentu można znaleźć tutaj: w jakich warunkach PCA i FA dają podobne wyniki?

Tutaj chciałbym to pokazać na przykładzie. Przeanalizuję zestaw danych dotyczących wina z UCI Machine Learning Repository. Jest to dość dobrze znany zestaw danych z win z trzech różnych winogron opisanych przez $n=178$ $p=13$ zmienne . Oto jak wygląda macierz korelacji:

Macierz korelacji zestawu danych dotyczących wina

Przeprowadziłem zarówno analizę PCA, jak i FA, i pokazałem projekcje 2D danych jako biploty dla obu z nich na poniższym rysunku (PCA po lewej, FA po prawej). Osie poziome i pionowe pokazują wyniki pierwszego i drugiego komponentu / czynnika. Każda z wartości $n=178$ kropek odpowiada jednemu winu, a kropki są kolorowe zgodnie z grupą (patrz legenda):

Analiza PCA i FA zestawu danych dotyczących wina

$p=13$ $1$ $3$ $3$ $1$

Zauważ, że nie ma prawie żadnej różnicy między PCA i FA! Tu i tam są małe odchylenia, ale ogólny obraz jest prawie identyczny, a wszystkie obciążenia są bardzo podobne i wskazują w tych samych kierunkach. Dokładnie tego oczekiwano od teorii i nie jest to zaskoczeniem; jednak pouczające jest obserwowanie.

PS. Aby uzyskać znacznie ładniejszy dwuplot PCA tego samego zestawu danych, zobacz tę odpowiedź autorstwa @vqv .

PPS. Podczas gdy obliczenia PCA są standardowe, obliczenia FA mogą wymagać komentarza. Obciążenia czynnikowe obliczono za pomocą algorytmu „iterowanych czynników głównych” aż do zbieżności (9 iteracji), a wspólnoty zainicjowano częściowymi korelacjami. Po zrównaniu się obciążeń wyniki zostały obliczone przy użyciu metody Bartletta. Daje to standardowe wyniki; Skalowałem je według odpowiednich wariancji czynnikowych (podanych przez długości ładunków).

— ameba
źródło

1

Jakiego oprogramowania użyłeś do stworzenia wykresów PCA i analizy czynnikowej?

— rnso 30.03.15

1

Użyłem Matlaba. Myślałem o wklejeniu kodu do mojej odpowiedzi (jak zwykle jest to mój nawyk), ale nie chciałem jeszcze bardziej zaśmiecać tego zajętego wątku. Ale jeśli się nad tym zastanowić, powinienem opublikować go na zewnętrznej stronie internetowej i zostawić link tutaj. Zrobię to.

— ameba

2

Prawdą jest, że PCA i FA czasami i wcale nie dają podobnych wyników (ładunków), dlatego PCA można postrzegać jako szczególny przypadek FA, gdy analiza czynnikowa jest zdefiniowana szeroko. Wciąż FA (sensu stricto) i PCA są teoretycznie całkiem różne.

— ttnphns,

2

(cd.) Czynniki są transcendentnymi ukrytymi cechami; pr. komponenty są pochodnymi immanentnymi. Mimo że twoje dwie działki ładunkowe wydają się praktycznie podobne, teoretycznie są one zasadniczo różne. Płaszczyzna komponentów po lewej została utworzona jako podprzestrzeń zmiennych, które się na nią rzutują. Płaszczyzna czynnikowa została stworzona jako przestrzeń inna niż przestrzeń zmiennych, więc rzutują się na „obcą” przestrzeń na prawym wykresie.

— ttnphns,

3

(cd.) Ale prawy obrazek (FA) tak naprawdę nie jest prawdziwym dwupłatkiem , jest raczej nakładką dwóch odrębnych wykresów rozrzutu, różnych przestrzeni: wykres obciążenia (gdzie prawdziwe są osie) i wykres punktacji obiektu (gdzie osie są oszacowane czynniki jako wyniki). Rzeczywista przestrzeń czynników przekracza przestrzeń „rodzicielską”, ale przestrzeń wyników czynników jest jej podprzestrzenią. Nakładasz dwie heterogeniczne pary osi, ale mają one te same oznaczenia („czynnik 1” i „czynnik 2” w obu parach), które to okoliczności są bardzo mylące i przekonują nas, abyśmy myśleli, że jest to dwuczęściowy bona fide , podobnie jak lewy.

— ttnphns,

25

Podstawowe, a jednocześnie swego rodzaju żmudne wyjaśnienie analizy PCA vs. analiza czynnikowa za pomocą wykresów rozrzutu, w logicznych krokach. (Dziękuję @amoeba, który w swoim komentarzu do pytania zachęcił mnie do opublikowania odpowiedzi zamiast zamieszczania linków do innych stron. A więc oto czas wolny, późna odpowiedź).

PCA jako podsumowanie zmiennych (ekstrakcja cech)

Mam nadzieję, że już rozumiesz PCA. Aby ożywić teraz.

$V_1$ $V_2$ $a$

$P1 = a1_1V_1 + a1_2V_2$

$P2 = a2_1V_1 + a2_2V_2$

Współczynniki te są cosinusami obrotu (= cosinusy kierunku, główne kierunki) i obejmują tak zwane wektory własne, podczas gdy wartości własne macierzy kowariancji są głównymi wariancjami składowymi. W PCA zwykle odrzucamy słabe ostatnie składniki: w ten sposób podsumowujemy dane według kilku pierwszych wyodrębnionych składników, przy niewielkiej utracie informacji.

Covariances
        V1       V2 
V1  1.07652   .73915 
V2   .73915   .95534 

----PCA---- 
Eigenvalues      % 
P1  1.75756   86.500 
P2   .27430   13.500 

Eigenvectors
        P1       P2
V1   .73543  -.67761 
V2   .67761   .73543

Z naszych wykreślonych danych, wartości składnika P1 (wyniki) P1 = .73543*V1 + .67761*V2i składnik P2 odrzucamy. Wariancji P1 jest 1.75756, 1st wartością własną macierzy kowariancji, a więc P1 wyjaśnia 86.5%o całkowitej wariancji, która jest równa (1.07652+.95534) = (1.75756+.27430).

PCA jako predykcja zmiennej (funkcja „utajona”)

$P1$ $V_1$ $V_2$

$V_1 = a1_{1}P1 + E_1$

$V_2 = a1_{2}P1 + E_2$

gdzie współczynniki $a$ $E$

$\hat{V_1} = a1_{1}P1$ $\hat{V_2} = a1_{2}P1$ $E_1 = V_1-\hat{V_1}$ $E_2 = V_2-\hat{V_2}$

Teraz charakterystyczne dla PCA jest to, że jeśli obliczymy E1 i E2 dla każdego punktu w danych i wykreślimy te współrzędne - tj. Wykonamy wykres rozrzutu samych błędów, „dane błędu” w chmurze zbiegną się z odrzuconym składnikiem P2. I tak się dzieje: chmura jest wykreślana na tym samym obrazie co chmura beżowa - i widzisz, że faktycznie tworzy ona oś P2 (na ryc. 1 ) ułożoną z ocenami składowymi P2.

Nic dziwnego, możesz powiedzieć. Jest to tak oczywiste: w PCA odrzucone elementy młodsze są tym, co precyzyjnie rozkłada się w błędach prognozowania E, w modelu, który wyjaśnia (przywraca) oryginalne zmienne V za pomocą ukrytych cech P1. Błędy E razem stanowią po prostu pominięte komponenty. Tutaj analiza czynnikowa zaczyna się różnić od PCA.

Idea wspólnego FA (funkcja ukryta)

Formalnie model przewidywania zmiennych przejawionych przez wyodrębnione ukryte cechy jest taki sam w FA jak w PCA; [ Eq.3 ]:

$V_1 = a_{1}F + E_1$

$V_2 = a_{2}F + E_2$

gdzie F jest ukrytym wspólnym czynnikiem wyodrębnionym z danych i zastępującym to, co było P1 w równaniu 2 . Różnica w modelu polega na tym, że w FA, w przeciwieństwie do PCA, zmienne błędu (E1 i E2) muszą być ze sobą nieskorelowane .

$a$ $a$ $a$ równ. 3 $a$ $a$ $a$ $a$

OK, wracając do wątku. E1 i E2 są nieskorelowane w analizie czynnikowej; dlatego powinny tworzyć chmurę błędów okrągłych lub eliptycznych, ale nie zorientowanych ukośnie. Podczas przebywania w PCA ich chmura utworzyła linię prostą pokrywającą się z przechodzącym po przekątnej P2. Oba pomysły pokazano na zdjęciu:

Zauważ, że błędy to okrągła (nie ukośnie wydłużona) chmura w FA. Czynnik (utajony) w FA jest zorientowany nieco inaczej, tj. Nie jest poprawny pierwszy główny składnik, który jest „utajony” w PCA. Na zdjęciu linia czynnikowa jest nieco dziwnie stożkowa - stanie się jasne, dlaczego w końcu.

Jakie jest znaczenie tej różnicy między PCA a FA? Zmienne skorelowane, co widać w ukośnym eliptycznym kształcie chmury danych. P1 przesunął maksymalną wariancję, więc elipsa jest skierowana w stronę P1. W związku z tym P1 samo wyjaśniało korelację; ale to nie wyjaśniło odpowiednio istniejącej ilości korelacji ; starał się wyjaśnić zmienność punktów danych, a nie korelację. W rzeczywistości zawyżał korelację, w wyniku czego pojawił się przekątny, skorelowany obłok błędów, który kompensuje zawyżenie. Sam P1 nie jest w stanie kompleksowo wyjaśnić siły korelacji / kowariacji. Współczynnik F. możeZrób to sam; a warunkiem, kiedy jest w stanie to zrobić, jest dokładnie to, gdzie można zmusić błędy do nieskorelowania. Ponieważ chmura błędów jest okrągła, po wyodrębnieniu czynnika nie pozostała korelacja - dodatnia ani ujemna - stąd czynnik ten przejął wszystko.

Jako zmniejszenie wymiarów PCA wyjaśnia wariancję, ale nieprecyzyjnie wyjaśnia korelacje. FA wyjaśnia korelacje, ale nie może uwzględnić (przez wspólne czynniki) tak dużej zmienności danych, jak PCA może. Czynniki wpływające na współczynnik FA uwzględniają tę część zmienności, która jest częścią korelacyjną netto, zwaną wspólnotą ; a zatem czynniki mogą być interpretowane jako rzeczywiste, ale nieobserwowalne siły / cechy / cechy, które ukrywają zmienne wejściowe lub „za” zmiennymi wejściowymi, aby je skorelować. Ponieważ dobrze wyjaśniają korelację matematyczną. Główne składniki (kilka pierwszych) wyjaśniają to matematycznie nie tak dobrze, dlatego można je nazwać „cechą utajoną” (lub taką) tylko w pewnym stopniu i wstępnie .

Mnożenie ładunków tłumaczy (przywraca) korelację lub korelację w postaci kowariancji - jeśli analiza była oparta na macierzy kowariancji (jak w naszym przykładzie), a nie na macierzy korelacji. Analiza czynnikowa, którą wykonałem z uzyskanymi danymi a_1=.87352, a_2=.84528, więc produkt a_1*a_2 = .73837jest prawie równy kowariancji .73915. Z drugiej strony ładunki PCA byłya1_1=.97497, a1_2=.89832 , więc a1_1*a1_2 = .87584zawyżone.73915 znacznie .

Po wyjaśnieniu głównej teoretycznej różnicy między PCA i FA, wróćmy do naszych danych, aby zilustrować ten pomysł.

FA: przybliżone rozwiązanie (oceny czynnikowe)

Poniżej znajduje się wykres rozrzutu pokazujący wyniki analizy, którą tymczasowo nazwiemy „nieoptymalną analizą czynnikową”, ryc . 3 .

A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).

Zobacz odjazdy z ryc . 2 PCA. Beżowa chmura błędów nie jest okrągła, jest po przekątnej eliptyczna, ale jest wyraźnie grubsza niż cienka ukośna linia występująca w PCA. Zauważ też, że złącza błędów (pokazane dla niektórych punktów) nie są już równoległe (w PCA były z definicji równoległe do P2). Co więcej, jeśli spojrzysz na przykład na punkty „F” i „E”, które leżą lustro symetrycznie nad osią F czynnika , nieoczekiwanie zauważysz, że odpowiadające im wyniki współczynnika mają zupełnie inne wartości. Innymi słowy, wyniki czynnikowe to nie tylko liniowo przekształcone główne wyniki składowe: czynnik F jest znaleziony na swój sposób odmienny od sposobu P1. Ich osie nie pokrywają się całkowicie, jeśli są pokazane razem na tej samej działce Ryc. 4 :

Poza tym są nieco inaczej zorientowane, F (zgodnie z wynikami) jest krótszy, tj. Odpowiada mniejszej wariancji niż konta P1. Jak zauważono wcześniej, czynnik bierze pod uwagę tylko zmienność, która odpowiada za korelację V1 V2, tj. Część całkowitej wariancji, która jest wystarczająca, aby wyprowadzić zmienne z pierwotnej kowariancji0 do faktycznej kowariancji .73915.

FA: optymalne rozwiązanie (prawdziwy czynnik)

Optymalne rozwiązanie czynnikowe występuje wtedy, gdy błędy są okrągłe lub nieprzekątne chmury eliptyczne: E1 i E2 są całkowicie nieskorelowane . Analiza czynnikowa faktycznie powraca takie optymalne rozwiązanie. Nie pokazałem tego na prostym wykresie rozrzutu, jak te powyżej. Dlaczego ja? - w końcu byłaby to najciekawsza rzecz.

Powodem jest to, że nie można odpowiednio pokazać na wykresie rozrzutu, nawet przyjmując wykres 3D. Teoretycznie jest to dość interesujący punkt. Aby E1 i E2 były całkowicie nieskorelowane, wydaje się, że wszystkie te trzy zmienne, F, E1, E2 muszą leżeć nie w przestrzeni (płaszczyźnie) określonej przez V1, V2; i te trzy muszą być ze sobą nieskorelowane . Wierzę, że można narysować taki wykres rozrzutu w 5D (i może z pewnym chwytem - w 4D), ale niestety żyjemy w świecie 3D. Czynnik F musi być nieskorelowany zarówno z E1, jak i E2 (podczas gdy oba są również nieskorelowane), ponieważ F ma być jedynym (czystym) i kompletnym źródłem korelacji w obserwowanych danych. Analizę czynników dzieli całkowitą wariancję z następującychpzmienne wejściowe na dwie nieskorelowane (nie nakładające się) części: -wymiarową, w której błędy są również nazywane czynnikami unikalnymi, wzajemnie nieskorelowanymi).część wspólnoty ( mwymiar, gdzie mrządzą wspólne czynniki) i część wyjątkowości (p

Więc wybacz, że nie pokazałeś tutaj prawdziwego czynnika naszych danych na wykresie rozrzutu. Można to dość dobrze wizualizować za pomocą wektorów w „przestrzeni tematycznej”, tak jak tutaj zrobiono bez pokazywania punktów danych.

Powyżej, w sekcji „Idea wspólnego FA (cecha ukryta)” pokazałem współczynnik (oś F) jako klin, aby ostrzec, że prawdziwa oś czynnika nie leży na płaszczyźnie V1 V2. Oznacza to, że - w przeciwieństwie do głównego składnika P1 - współczynnik F jako oś nie jest obrotem osi V1 lub V2 w ich przestrzeni, a F jako zmienna nie jest liniową kombinacją zmiennych V1 i V2. Dlatego F jest modelowane (wyodrębniane ze zmiennych V1 v2) tak, jakby była zewnętrzną, niezależną zmienną, a nie ich pochodną. Równania takie jak równanie 1, od którego rozpoczyna się PCA, nie mają zastosowania do obliczenia rzeczywistego (optymalnego) współczynnika w analizie czynnikowej, podczas gdy formalnie równania izomorficzne równoważne 2 i równoważne 3są ważne dla obu analiz. Oznacza to, że w PCA zmienne generują komponenty i komponenty przewidują z powrotem zmienne; w współczynniku (-ach) FA generuje / przewiduje zmienne, a nie odwrotnie - wspólny model czynnikowy zakłada tak , chociaż technicznie czynników pochodzących z obserwowanych zmiennych.

Nie tylko czynnik rzeczywisty nie jest funkcją zmiennych manifestu, ale też wartości czynnika rzeczywistego nie są jednoznacznie zdefiniowane . Innymi słowy, są po prostu nieznane. Wszystko to wynika z faktu, że znajdujemy się w nadmiernej przestrzeni analitycznej 5D, a nie w naszej domowej przestrzeni 2D danych. Dostępne są tylko dobre aproksymacje (istnieje wiele metod ) do prawdziwych wartości czynników, zwanych wynikami czynników . Oceny czynnikowe leżą w płaszczyźnie V1 V2, podobnie jak wyniki głównych składowych, są one obliczane jako funkcje liniowe V1, V2, i to były onektóre narysowałem w sekcji „FA: przybliżone rozwiązanie (oceny czynnikowe)”. Oceny głównych składników są prawdziwymi wartościami składników; oceny czynnikowe są jedynie rozsądnym przybliżeniem do nieokreślonych rzeczywistych wartości czynników.

FA: podsumowanie procedury

$a$

Zatem „rozwiązanie czynnikowe” wyświetlane przeze mnie w sekcji „FA: rozwiązanie przybliżone (wyniki czynnikowe)” opierało się faktycznie na optymalnych obciążeniach, tj. Na czynnikach rzeczywistych. Ale wyniki nie były optymalne pod względem przeznaczenia. Wyniki są obliczane jako funkcja liniowa obserwowanych zmiennych, podobnie jak wyniki składowe, więc można je porównać na wykresie rozrzutu, a ja zrobiłem to w dążeniu dydaktycznym, aby pokazać jak stopniowe przejście od pomysłu PCA do pomysłu FA.

Należy zachować ostrożność przy sporządzaniu wykresów na tych samych ładunkach czynników biplotowych z wynikami czynnikowymi w „przestrzeni czynników”, należy pamiętać, że ładunki odnoszą się do czynników rzeczywistych, a wyniki odnoszą się do czynników zastępczych (patrz moje komentarze do tej odpowiedzi w tym wątku).

Obracanie czynników (ładunków) pomaga interpretować ukryte cechy. Obracanie ładunków można wykonać również w PCA, jeśli użyjesz PCA tak, jakbyś analizował czynnik (to znaczy, zobacz PCA jako predykcję zmiennej). PCA ma tendencję do zbieżności wyników z FA wraz ze wzrostem liczby zmiennych (patrz niezwykle bogaty wątek na temat praktycznych i koncepcyjnych podobieństw i różnic między tymi dwiema metodami). Zobacz moją listę różnic między PCA i FA na końcu tej odpowiedzi . Obliczenia krok po kroku PCA vs FA na zestawie danych tęczówki można znaleźć tutaj . Istnieje znaczna liczba dobrych linków do odpowiedzi innych uczestników na ten temat poza tym wątkiem; Przepraszam, że użyłem tylko kilku z nich w bieżącej odpowiedzi.

Zobacz także listę punktową różnic między PCA i FA tutaj .

— ttnphns
źródło

1

+1. To wspaniale, że to napisałeś, w tym wątku zdecydowanie brakowało od ciebie odpowiedzi. Głosowałem przed czytaniem (co rzadko robię) i na pewno podobało mi się kolejne czytanie. Mogę skomentować później, ale na razie jeden mały nitpick: napisałeś kilka razy, że w FA chmura błędów powinna być „okrągła”. Ale w rzeczywistości może być eliptyczny (ponieważ unikatowości dla V1 i V2 mogą mieć różne wariancje), po prostu musi mieć zerowe korelacje. Chyba nie chciałeś mylić czytelników z tym szczegółem.

— ameba

1

V_{1} = a_{1} F + E_{1}

$V_1 = a_{1}F + E_1$

V_{2} = a_{2} F + E_{2}

$V_2 = a_{2}F + E_2$

(E_{1}, E_{2}) = N (0, I)

$(E_1,E_2) = \mathcal{N}(0,\Bbb{I})$ - Teraz użyj tych relacji, aby wygenerować próbki V1 i V2. Po wygenerowaniu V1 i V2, jeśli mielibyśmy wykonać optymalny FA, powinniśmy odzyskać prawie dokładne szacunki (E1, E2), i utworzy ono chmurę eliptyczną. Co więcej, teraz F, E1, E2 mogą być reprezentowane w tej samej płaszczyźnie co V1 i V2.

— kasa

@kasa, czy twój komentarz pochwalił moją odpowiedź, czy komentarz Ameby? Jeśli twój komentarz jest sprzeczny z moim głównym twierdzeniem, że w FA trzy ukryte zmienne nie leżą w pierwotnej przestrzeni i możesz to pokazać, dlaczego nie wydać odpowiedzi pokazującej to? Należy jednak pamiętać, że w optymalnym FA błędy są dokładnie nieskorelowane, nie że można je sobie wyobrazić jako pochodzące z normalnej nieskorelowanej populacji.

— ttnphns

@ttnphns: Przepraszam za zamieszanie, wątpiłem w twoje główne roszczenie. Spróbuję pokazać to jako odpowiedź za kilka dni. Dzięki!

— kasa

21

Różnice między analizą czynnikową a analizą głównych składników to:

• W analizie czynnikowej istnieje model strukturalny i pewne założenia. Pod tym względem jest to technika statystyczna, która nie ma zastosowania do analizy głównych składników, która jest czysto matematyczną transformacją.

• Celem analizy głównego składnika jest wyjaśnienie wariancji, podczas gdy analiza czynnikowa wyjaśnia kowariancję między zmiennymi.

Jedną z największych przyczyn pomyłki między tymi dwoma jest fakt, że jedna z metod ekstrakcji czynnikowej w analizie czynnikowej nazywana jest „metodą głównych składników”. Jednak jedną rzeczą jest użycie PCA, a inną metodą głównych składników w FA. Nazwy mogą być podobne, ale istnieją znaczne różnice. Pierwsza jest niezależną metodą analityczną, a druga jest jedynie narzędziem do ekstrakcji czynników.

— George Dontas
źródło

13

Dla mnie (i mam nadzieję, że jest to przydatne) analiza czynnikowa jest znacznie bardziej przydatna niż PCA.

Ostatnio miałem przyjemność analizować skalę poprzez analizę czynnikową. Skala ta (chociaż jest szeroko stosowana w przemyśle) została opracowana przy użyciu PCA i, o ile wiem, nigdy nie była analizowana czynnikowo.

Kiedy przeprowadziłem analizę czynnikową (oś główna), odkryłem, że wspólnoty dla trzech elementów były mniejsze niż 30%, co oznacza, że ponad 70% wariancji elementów nie było analizowane. PCA po prostu przekształca dane w nową kombinację i nie dba o społeczności. Doszedłem do wniosku, że skala nie była bardzo dobra z psychometrycznego punktu widzenia, i potwierdziłem to inną próbą.

Zasadniczo, jeśli chcesz przewidywać za pomocą czynników, użyj PCA, a jeśli chcesz zrozumieć ukryte czynniki, użyj analizy czynnikowej.

— richiemorrisroe
źródło

11

Rozwijając odpowiedź @ StatisticsDocConsulting: różnica w obciążeniach między EFA i PCA nie jest trywialna z niewielką liczbą zmiennych. Oto funkcja symulacji pokazująca to w języku R:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

IterationsSample.Size $=1000$ Iterationsprincipal()factanal()

Korzystając z tego kodu, symulowałem próbki 3–100 zmiennych z 500 iteracjami każda w celu wygenerowania danych:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

... dla wykresu wrażliwości średnich ładunków (między zmiennymi i iteracjami) na liczbę zmiennych:

$.067$

— Nick Stauner
źródło

10

Można myśleć o PCA jako o FA, w którym zakłada się, że wspólnoty wynoszą 1 dla wszystkich zmiennych. W praktyce oznacza to, że przedmioty, które miałyby stosunkowo niskie obciążenia czynnikowe w FA z powodu niskiej wspólnoty, będą miały większe obciążenia w PCA. Nie jest to pożądana cecha, jeśli głównym celem analizy jest skrócenie długości przedmiotu i oczyszczenie akumulatora z przedmiotów o niskim lub niejednoznacznym obciążeniu, lub zidentyfikowanie pojęć, które nie są dobrze reprezentowane w puli przedmiotów.

— StatisticsDoc Consulting
źródło

10

Cytat z naprawdę fajnego podręcznika (Brown, 2006, s. 22, podkreślenie dodane).
PCA = analiza głównych składników
EFA = eksploracyjna analiza czynnikowa
CFA = potwierdzająca analiza czynnikowa

Mimo że jest związana z EFA, analiza głównych składników (PCA) jest często błędnie klasyfikowana jako metoda szacowania wspólnej analizy czynnikowej. W przeciwieństwie do estymatorów omówionych w poprzednim akapicie (ML, PF), PCA opiera się na innym zestawie metod ilościowych, które nie są oparte na modelu wspólnego czynnika. PCA nie różnicuje powszechnej i unikalnej wariancji. Zamiast tego PCA ma na celu raczej uwzględnienie wariancji zaobserwowanych miar, niż wyjaśnienie korelacji między nimi. Dlatego PCA jest bardziej odpowiednio stosowana jako technika redukcji danych w celu zredukowania większego zestawu miar do mniejszej, łatwiejszej do zarządzania liczby zmiennych złożonych, które zostaną wykorzystane w kolejnych analizach. Jednak niektórzy metodolodzy argumentowali, że PCA jest rozsądną, a może lepszą alternatywą dla EFA, z uwagi na fakt, że PCA ma kilka pożądanych właściwości statystycznych (np. prostsze obliczeniowo, niepodatne na niewłaściwe rozwiązania, często daje wyniki podobne do wyników EFA, zdolność PCA do obliczenia wyniku uczestnika na głównym składniku, podczas gdy nieokreślony charakter EFA komplikuje takie obliczenia). Chociaż debata na ten temat trwa, Fabrigar i in. (1999) podają kilka powodów w przeciwieństwie do argumentu za miejscem PCA w analizie czynnikowej. Autorzy ci podkreślają sytuacje, w których EFA i PCA dają odmienne wyniki; na przykład, gdy społeczności są niskie lub gdy istnieje tylko kilka wskaźników danego czynnika (por. Widaman, 1993). często daje wyniki podobne do wyników EFA, zdolność PCA do obliczenia wyniku uczestnika na głównym składniku, podczas gdy nieokreślony charakter EFA komplikuje takie obliczenia). Chociaż debata na ten temat trwa, Fabrigar i in. (1999) podają kilka powodów w przeciwieństwie do argumentu za miejscem PCA w analizie czynnikowej. Autorzy ci podkreślają sytuacje, w których EFA i PCA dają odmienne wyniki; na przykład, gdy społeczności są niskie lub gdy istnieje tylko kilka wskaźników danego czynnika (por. Widaman, 1993). często daje wyniki podobne do wyników EFA, zdolność PCA do obliczenia wyniku uczestnika na głównym składniku, podczas gdy nieokreślony charakter EFA komplikuje takie obliczenia). Chociaż debata na ten temat trwa, Fabrigar i in. (1999) podają kilka powodów w przeciwieństwie do argumentu za miejscem PCA w analizie czynnikowej. Autorzy ci podkreślają sytuacje, w których EFA i PCA dają odmienne wyniki; na przykład, gdy społeczności są niskie lub gdy istnieje tylko kilka wskaźników danego czynnika (por. Widaman, 1993). (1999) podają kilka powodów w przeciwieństwie do argumentu za miejscem PCA w analizie czynnikowej. Autorzy ci podkreślają sytuacje, w których EFA i PCA dają odmienne wyniki; na przykład, gdy społeczności są niskie lub gdy istnieje tylko kilka wskaźników danego czynnika (por. Widaman, 1993). (1999) podają kilka powodów w przeciwieństwie do argumentu za miejscem PCA w analizie czynnikowej. Autorzy ci podkreślają sytuacje, w których EFA i PCA dają odmienne wyniki; na przykład, gdy społeczności są niskie lub gdy istnieje tylko kilka wskaźników danego czynnika (por. Widaman, 1993).Niezależnie od tego, czy nadrzędne przesłanki i empiryczne cele analizy są zgodne ze wspólnym modelem czynnikowym, przeprowadzanie PCA jest koncepcyjnie i matematycznie niespójne; to znaczy, EFA jest bardziej odpowiedni, jeśli deklarowanym celem jest odtworzenie wzajemnych korelacji zestawu wskaźników z mniejszą liczbą ukrytych wymiarów, uznając istnienie błędu pomiaru w zaobserwowanych pomiarach.Floyd i Widaman (1995) twierdzą, że szacunki oparte na EFA mają większe szanse na uogólnienie na CFA niż te uzyskane z PCA, ponieważ w przeciwieństwie do PCA, EFA i CFA są oparte na modelu wspólnego czynnika. Jest to warte uwagi, biorąc pod uwagę fakt, że EFA jest często stosowany jako prekursor CFA w rozwoju skali i sprawdzaniu poprawności konstrukcji. Szczegółowy wykaz różnic obliczeniowych między PCA i EFA można znaleźć w podręcznikach analitycznych na wiele zmiennych i czynników (np. Tabachnick i Fidell, 2001).

Brown, TA (2006). Potwierdzająca analiza czynnikowa dla badań stosowanych. Nowy Jork: Guilford Press.

— Henrik
źródło

6

W artykule Tipping i Bischop omówiono ścisły związek między probabalistyczną PCA (PPCA) a analizą czynnikową. PPCA jest bliższy FA niż klasyczny PCA. Wspólnym modelem jest

r = μ + W. x + ϵ

$\mathbf{y} = \mu + \mathbf{Wx} + \epsilon$

$\mathbf{W} \in \mathbb{R}^{p,d}$ $\mathbf{x} \sim \mathcal{N}(\mathbf{0},\mathbf{I})$ $\epsilon \sim \mathcal{N}(\mathbf{0},\mathbf{\Psi})$

$\mathbf{\Psi}$
$\mathbf{\Psi} = \sigma^2\mathbf{I}$

Michael E. Tipping, Christopher M. Bishop (1999). Probabilistyczna analiza głównych składników , Journal of Royal Statistics Society, tom 61, wydanie 3, strony 611–622

— mnmltype
źródło

2

+1. Tak. Uważam, że zrozumienie PPCA jest konieczne, aby zrozumieć związek między PCA i FA. Ale możesz poprawić swoją odpowiedź, omawiając relacje PCA / PPCA.

— ameba

3

Żadna z tych odpowiedzi nie jest idealna. Albo FA albo PCA ma kilka wariantów. Musimy wyraźnie wskazać, które warianty są porównywane. Porównałbym analizę współczynnika największej wiarygodności i PCA Hotellinga. Te pierwsze zakładają, że zmienna utajona ma rozkład normalny, ale PCA nie ma takiego założenia. Doprowadziło to do różnic, takich jak rozwiązanie, zagnieżdżanie komponentów, unikalność rozwiązania, algorytmy optymalizacji.

— Spirala
źródło

1

Zastanawiam się, czy mógłbyś trochę rozwinąć tę kwestię - powiedziałeś, że istnieją różnice w ostatnim zdaniu, ale nie podałeś zbyt wielu informacji o tym, jakie mogą być te różnice lub w jaki sposób te różnice mogą być ważne?

— Silverfish,

1

Wybór dwóch najbardziej odległych metod i twierdzenie, że rzeczywiście są one różne - tak jak Ty - nie jest również idealną logiką. Prawdopodobnie należy znaleźć i zgłosić, jak te dwa są podobne. Alternatywnie można wybrać najbardziej podobne metody (takie jak zwykły PCA vs PAF ) i zgłosić, w jaki sposób są one różne.

— ttnphns

1

PCA Hotellinga zakłada ukrytych gaussów.

— przypuszcza

1

Istnieje wiele świetnych odpowiedzi na ten post, ale ostatnio natknąłem się na inną różnicę.

Klastrowanie to jedna aplikacja, w której PCA i FA dają różne wyniki. Gdy dane zawierają wiele funkcji, można spróbować znaleźć najlepsze kierunki komputera i wyświetlić dane na tych komputerach, a następnie przejść do tworzenia klastrów. Często zaburza to nieodłączne klastry danych - jest to dobrze sprawdzony wynik. Naukowcy sugerują, aby przejść do metod klastrowania w podprzestrzeni, które szukają niskowymiarowych czynników ukrytych w modelu.

Aby zilustrować tę różnicę, rozważ Crabszestaw danych w R. Krab Zestaw danych ma 200 wierszy i 8 kolumn, opisujących 5 pomiarów morfologicznych na 50 krabach, każdej z dwóch form kolorystycznych i obu płci, z gatunku - Zasadniczo istnieją 4 (2x2) różne klasy kraby.

library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)


res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)

Klastrowanie za pomocą PC1 i PC2:

Klastrowanie za pomocą PC2 i PC3:

#using PC1 and PC2:
     1  2  3  4
  1 12 46 24  5
  2 36  0  2  0
  3  2  1 24  0
  4  0  3  0 45

#using PC2 and PC3:
    1  2  3  4
  1 36  0  0  0
  2 13 48  0  0
  3  0  1  0 48
  4  1  1 50  2

Jak widać z powyższych wykresów, PC2 i PC3 niosą więcej dyskryminujących informacji niż PC1.

Jeśli ktoś spróbuje utworzyć klaster za pomocą ukrytych czynników za pomocą Mixture of Factor Analyzers, zobaczymy znacznie lepszy wynik w porównaniu z użyciem dwóch pierwszych komputerów.

mfa_model <- mfa(y, g = 4, q = 2)
  |............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))

     1  2  3  4
  1  0  0  0 45
  2 16 50  0  0
  3 34  0  0  0
  4  0  0 50  5

— kasa
źródło

Muszę powiedzieć, że wątpię, czy ta odpowiedź naprawdę odpowiada na pytanie. Odpowiedź dotyczy analizy skupień po PCA lub FA, a nie samych PCA i FA. Ale nawet pod tym względem odpowiedź jest słaba lub niedokończona. Jak wyjaśnić różnicę, którą wyświetlasz?

— ttnphns

@ttnphns Zgadzam się z odpowiedzią dotyczącą analizy skupień. Jednak OP poprosił również o rzeczywisty scenariusz z PCA / FA, w którym jeden musi być wykorzystany nad drugim. Zazwyczaj PCA lub FA nigdy nie są celem końcowym - na przykład w naukach społecznych celem końcowym byłoby podzielenie przedmiotów na różne grupy / grupy. Moja odpowiedź dotyczy takich scenariuszy. Jeśli uważasz, że moja odpowiedź może zostać poprawiona, możesz to zaznaczyć.

— kasa

Myślę, że twoja odpowiedź może stać się bardzo istotna, jeśli wyjaśnisz swoje odkrycie. Twierdzisz, że różnice między PCA i FA są nierozerwalnie związane z dwiema metodami (tylko stają się widoczne w ramach grupowania). Myślę, że powinieneś pokazać lub przynajmniej spekulować, w jaki sposób i dlaczego różnice wynikają teoretycznie z różnic modeli modeli.

— ttnphns