Podstawowe, a jednocześnie swego rodzaju żmudne wyjaśnienie analizy PCA vs. analiza czynnikowa za pomocą wykresów rozrzutu, w logicznych krokach. (Dziękuję @amoeba, który w swoim komentarzu do pytania zachęcił mnie do opublikowania odpowiedzi zamiast zamieszczania linków do innych stron. A więc oto czas wolny, późna odpowiedź).
PCA jako podsumowanie zmiennych (ekstrakcja cech)
Mam nadzieję, że już rozumiesz PCA. Aby ożywić teraz.
V.1V.2)za
P.1 = a 11V.1+ a 12)V.2)
P.2 = a 21V.1+ a 22)V.2)
Współczynniki te są cosinusami obrotu (= cosinusy kierunku, główne kierunki) i obejmują tak zwane wektory własne, podczas gdy wartości własne macierzy kowariancji są głównymi wariancjami składowymi. W PCA zwykle odrzucamy słabe ostatnie składniki: w ten sposób podsumowujemy dane według kilku pierwszych wyodrębnionych składników, przy niewielkiej utracie informacji.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
Z naszych wykreślonych danych, wartości składnika P1 (wyniki) P1 = .73543*V1 + .67761*V2
i składnik P2 odrzucamy. Wariancji P1 jest 1.75756
, 1st wartością własną macierzy kowariancji, a więc P1 wyjaśnia 86.5%
o całkowitej wariancji, która jest równa (1.07652+.95534) = (1.75756+.27430)
.
PCA jako predykcja zmiennej (funkcja „utajona”)
P.1 V.1V.2)
V.1= a 11P.1 + E1
V.2)= a 12)P.1 + E2)
gdzie współczynniki zami
V.1^= a 11P.1V.2)^= a 12)P.1mi1= V.1- V1^mi2)= V.2)- V2)^
Teraz charakterystyczne dla PCA jest to, że jeśli obliczymy E1 i E2 dla każdego punktu w danych i wykreślimy te współrzędne - tj. Wykonamy wykres rozrzutu samych błędów, „dane błędu” w chmurze zbiegną się z odrzuconym składnikiem P2. I tak się dzieje: chmura jest wykreślana na tym samym obrazie co chmura beżowa - i widzisz, że faktycznie tworzy ona oś P2 (na ryc. 1 ) ułożoną z ocenami składowymi P2.
Nic dziwnego, możesz powiedzieć. Jest to tak oczywiste: w PCA odrzucone elementy młodsze są tym, co precyzyjnie rozkłada się w błędach prognozowania E, w modelu, który wyjaśnia (przywraca) oryginalne zmienne V za pomocą ukrytych cech P1. Błędy E razem stanowią po prostu pominięte komponenty. Tutaj analiza czynnikowa zaczyna się różnić od PCA.
Idea wspólnego FA (funkcja ukryta)
Formalnie model przewidywania zmiennych przejawionych przez wyodrębnione ukryte cechy jest taki sam w FA jak w PCA; [ Eq.3 ]:
V.1= a1fa+ E1
V.2)= a2)fa+ E2)
gdzie F jest ukrytym wspólnym czynnikiem wyodrębnionym z danych i zastępującym to, co było P1 w równaniu 2 . Różnica w modelu polega na tym, że w FA, w przeciwieństwie do PCA, zmienne błędu (E1 i E2) muszą być ze sobą nieskorelowane .
zazaza równ. 3zazazaza
OK, wracając do wątku. E1 i E2 są nieskorelowane w analizie czynnikowej; dlatego powinny tworzyć chmurę błędów okrągłych lub eliptycznych, ale nie zorientowanych ukośnie. Podczas przebywania w PCA ich chmura utworzyła linię prostą pokrywającą się z przechodzącym po przekątnej P2. Oba pomysły pokazano na zdjęciu:
Zauważ, że błędy to okrągła (nie ukośnie wydłużona) chmura w FA. Czynnik (utajony) w FA jest zorientowany nieco inaczej, tj. Nie jest poprawny pierwszy główny składnik, który jest „utajony” w PCA. Na zdjęciu linia czynnikowa jest nieco dziwnie stożkowa - stanie się jasne, dlaczego w końcu.
Jakie jest znaczenie tej różnicy między PCA a FA? Zmienne skorelowane, co widać w ukośnym eliptycznym kształcie chmury danych. P1 przesunął maksymalną wariancję, więc elipsa jest skierowana w stronę P1. W związku z tym P1 samo wyjaśniało korelację; ale to nie wyjaśniło odpowiednio istniejącej ilości korelacji ; starał się wyjaśnić zmienność punktów danych, a nie korelację. W rzeczywistości zawyżał korelację, w wyniku czego pojawił się przekątny, skorelowany obłok błędów, który kompensuje zawyżenie. Sam P1 nie jest w stanie kompleksowo wyjaśnić siły korelacji / kowariacji. Współczynnik F. możeZrób to sam; a warunkiem, kiedy jest w stanie to zrobić, jest dokładnie to, gdzie można zmusić błędy do nieskorelowania. Ponieważ chmura błędów jest okrągła, po wyodrębnieniu czynnika nie pozostała korelacja - dodatnia ani ujemna - stąd czynnik ten przejął wszystko.
Jako zmniejszenie wymiarów PCA wyjaśnia wariancję, ale nieprecyzyjnie wyjaśnia korelacje. FA wyjaśnia korelacje, ale nie może uwzględnić (przez wspólne czynniki) tak dużej zmienności danych, jak PCA może. Czynniki wpływające na współczynnik FA uwzględniają tę część zmienności, która jest częścią korelacyjną netto, zwaną wspólnotą ; a zatem czynniki mogą być interpretowane jako rzeczywiste, ale nieobserwowalne siły / cechy / cechy, które ukrywają zmienne wejściowe lub „za” zmiennymi wejściowymi, aby je skorelować. Ponieważ dobrze wyjaśniają korelację matematyczną. Główne składniki (kilka pierwszych) wyjaśniają to matematycznie nie tak dobrze, dlatego można je nazwać „cechą utajoną” (lub taką) tylko w pewnym stopniu i wstępnie .
Mnożenie ładunków tłumaczy (przywraca) korelację lub korelację w postaci kowariancji - jeśli analiza była oparta na macierzy kowariancji (jak w naszym przykładzie), a nie na macierzy korelacji. Analiza czynnikowa, którą wykonałem z uzyskanymi danymi a_1=.87352, a_2=.84528
, więc produkt a_1*a_2 = .73837
jest prawie równy kowariancji .73915
. Z drugiej strony ładunki PCA byłya1_1=.97497, a1_2=.89832
, więc a1_1*a1_2 = .87584
zawyżone.73915
znacznie .
Po wyjaśnieniu głównej teoretycznej różnicy między PCA i FA, wróćmy do naszych danych, aby zilustrować ten pomysł.
FA: przybliżone rozwiązanie (oceny czynnikowe)
Poniżej znajduje się wykres rozrzutu pokazujący wyniki analizy, którą tymczasowo nazwiemy „nieoptymalną analizą czynnikową”, ryc . 3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
Zobacz odjazdy z ryc . 2 PCA. Beżowa chmura błędów nie jest okrągła, jest po przekątnej eliptyczna, ale jest wyraźnie grubsza niż cienka ukośna linia występująca w PCA. Zauważ też, że złącza błędów (pokazane dla niektórych punktów) nie są już równoległe (w PCA były z definicji równoległe do P2). Co więcej, jeśli spojrzysz na przykład na punkty „F” i „E”, które leżą lustro symetrycznie nad osią F czynnika , nieoczekiwanie zauważysz, że odpowiadające im wyniki współczynnika mają zupełnie inne wartości. Innymi słowy, wyniki czynnikowe to nie tylko liniowo przekształcone główne wyniki składowe: czynnik F jest znaleziony na swój sposób odmienny od sposobu P1. Ich osie nie pokrywają się całkowicie, jeśli są pokazane razem na tej samej działce Ryc. 4 :
Poza tym są nieco inaczej zorientowane, F (zgodnie z wynikami) jest krótszy, tj. Odpowiada mniejszej wariancji niż konta P1. Jak zauważono wcześniej, czynnik bierze pod uwagę tylko zmienność, która odpowiada za korelację V1 V2, tj. Część całkowitej wariancji, która jest wystarczająca, aby wyprowadzić zmienne z pierwotnej kowariancji0
do faktycznej kowariancji .73915
.
FA: optymalne rozwiązanie (prawdziwy czynnik)
Optymalne rozwiązanie czynnikowe występuje wtedy, gdy błędy są okrągłe lub nieprzekątne chmury eliptyczne: E1 i E2 są całkowicie nieskorelowane . Analiza czynnikowa faktycznie powraca takie optymalne rozwiązanie. Nie pokazałem tego na prostym wykresie rozrzutu, jak te powyżej. Dlaczego ja? - w końcu byłaby to najciekawsza rzecz.
Powodem jest to, że nie można odpowiednio pokazać na wykresie rozrzutu, nawet przyjmując wykres 3D. Teoretycznie jest to dość interesujący punkt. Aby E1 i E2 były całkowicie nieskorelowane, wydaje się, że wszystkie te trzy zmienne, F, E1, E2 muszą leżeć nie w przestrzeni (płaszczyźnie) określonej przez V1, V2; i te trzy muszą być ze sobą nieskorelowane . Wierzę, że można narysować taki wykres rozrzutu w 5D (i może z pewnym chwytem - w 4D), ale niestety żyjemy w świecie 3D. Czynnik F musi być nieskorelowany zarówno z E1, jak i E2 (podczas gdy oba są również nieskorelowane), ponieważ F ma być jedynym (czystym) i kompletnym źródłem korelacji w obserwowanych danych. Analizę czynników dzieli całkowitą wariancję z następującychp
zmienne wejściowe na dwie nieskorelowane (nie nakładające się) części: -wymiarową, w której błędy są również nazywane czynnikami unikalnymi, wzajemnie nieskorelowanymi).część wspólnoty ( m
wymiar, gdzie m
rządzą wspólne czynniki) i część wyjątkowości (p
Więc wybacz, że nie pokazałeś tutaj prawdziwego czynnika naszych danych na wykresie rozrzutu. Można to dość dobrze wizualizować za pomocą wektorów w „przestrzeni tematycznej”, tak jak tutaj zrobiono bez pokazywania punktów danych.
Powyżej, w sekcji „Idea wspólnego FA (cecha ukryta)” pokazałem współczynnik (oś F) jako klin, aby ostrzec, że prawdziwa oś czynnika nie leży na płaszczyźnie V1 V2. Oznacza to, że - w przeciwieństwie do głównego składnika P1 - współczynnik F jako oś nie jest obrotem osi V1 lub V2 w ich przestrzeni, a F jako zmienna nie jest liniową kombinacją zmiennych V1 i V2. Dlatego F jest modelowane (wyodrębniane ze zmiennych V1 v2) tak, jakby była zewnętrzną, niezależną zmienną, a nie ich pochodną. Równania takie jak równanie 1, od którego rozpoczyna się PCA, nie mają zastosowania do obliczenia rzeczywistego (optymalnego) współczynnika w analizie czynnikowej, podczas gdy formalnie równania izomorficzne równoważne 2 i równoważne 3są ważne dla obu analiz. Oznacza to, że w PCA zmienne generują komponenty i komponenty przewidują z powrotem zmienne; w współczynniku (-ach) FA generuje / przewiduje zmienne, a nie odwrotnie - wspólny model czynnikowy zakłada tak , chociaż technicznie czynników pochodzących z obserwowanych zmiennych.
Nie tylko czynnik rzeczywisty nie jest funkcją zmiennych manifestu, ale też wartości czynnika rzeczywistego nie są jednoznacznie zdefiniowane . Innymi słowy, są po prostu nieznane. Wszystko to wynika z faktu, że znajdujemy się w nadmiernej przestrzeni analitycznej 5D, a nie w naszej domowej przestrzeni 2D danych. Dostępne są tylko dobre aproksymacje (istnieje wiele metod ) do prawdziwych wartości czynników, zwanych wynikami czynników . Oceny czynnikowe leżą w płaszczyźnie V1 V2, podobnie jak wyniki głównych składowych, są one obliczane jako funkcje liniowe V1, V2, i to były onektóre narysowałem w sekcji „FA: przybliżone rozwiązanie (oceny czynnikowe)”. Oceny głównych składników są prawdziwymi wartościami składników; oceny czynnikowe są jedynie rozsądnym przybliżeniem do nieokreślonych rzeczywistych wartości czynników.
FA: podsumowanie procedury
za
Zatem „rozwiązanie czynnikowe” wyświetlane przeze mnie w sekcji „FA: rozwiązanie przybliżone (wyniki czynnikowe)” opierało się faktycznie na optymalnych obciążeniach, tj. Na czynnikach rzeczywistych. Ale wyniki nie były optymalne pod względem przeznaczenia. Wyniki są obliczane jako funkcja liniowa obserwowanych zmiennych, podobnie jak wyniki składowe, więc można je porównać na wykresie rozrzutu, a ja zrobiłem to w dążeniu dydaktycznym, aby pokazać jak stopniowe przejście od pomysłu PCA do pomysłu FA.
Należy zachować ostrożność przy sporządzaniu wykresów na tych samych ładunkach czynników biplotowych z wynikami czynnikowymi w „przestrzeni czynników”, należy pamiętać, że ładunki odnoszą się do czynników rzeczywistych, a wyniki odnoszą się do czynników zastępczych (patrz moje komentarze do tej odpowiedzi w tym wątku).
Obracanie czynników (ładunków) pomaga interpretować ukryte cechy. Obracanie ładunków można wykonać również w PCA, jeśli użyjesz PCA tak, jakbyś analizował czynnik (to znaczy, zobacz PCA jako predykcję zmiennej). PCA ma tendencję do zbieżności wyników z FA wraz ze wzrostem liczby zmiennych (patrz niezwykle bogaty wątek na temat praktycznych i koncepcyjnych podobieństw i różnic między tymi dwiema metodami). Zobacz moją listę różnic między PCA i FA na końcu tej odpowiedzi . Obliczenia krok po kroku PCA vs FA na zestawie danych tęczówki można znaleźć tutaj . Istnieje znaczna liczba dobrych linków do odpowiedzi innych uczestników na ten temat poza tym wątkiem; Przepraszam, że użyłem tylko kilku z nich w bieżącej odpowiedzi.
Zobacz także listę punktową różnic między PCA i FA tutaj .