Czy jest jakiś dobry powód, aby używać PCA zamiast EFA? Czy PCA może również zastąpić analizę czynnikową?


73

W niektórych dyscyplinach PCA (analiza głównego składnika) jest systematycznie stosowana bez żadnego uzasadnienia, a PCA i EFA (analiza czynników eksploracyjnych) są uważane za synonimy.

Dlatego ostatnio użyłem PCA do analizy wyników badania walidacji skali (21 pozycji na 7-punktowej skali Likerta, zakładając, że składają się 3 czynniki po 7 pozycji każdy), a recenzent pyta mnie, dlaczego wybrałem PCA zamiast EFA. Czytam o różnicach między obiema technikami i wydaje się, że EFA jest faworyzowana przeciwko PCA w większości twoich odpowiedzi tutaj.

Czy masz jakieś dobre powody, dla których PCA byłby lepszym wyborem? Jakie korzyści może zapewnić i dlaczego może to być mądry wybór w moim przypadku?


1
Świetne pytanie. Nie zgadzam się z odpowiedzią ttnphns i postaram się przedstawić alternatywny pogląd dzisiaj.
ameba

5
@amoeba Kibicuję wam z góry. PCA to tylko technika transformacji, która może (czasem bardzo) być pomocna. Nie trzeba go demonizować ani przypisywać mu fałszywych lub nieodpowiednich intencji. Równie dobrze możesz wyrzucić logarytm.
Nick Cox,

4
Nie wydaje się, że odpowiedź ttnphnsa demonizuje PCA. Wydaje mi się, że po prostu argumentuje, że PCA nie opiera się na założeniu, że ukryte zmienne generują twoje dane, więc jeśli to właśnie próbujesz zrobić, FA jest lepszym wyborem.
gung

1
FWIW, nie komentowałem konkretnie odpowiedzi ttphns, ale na komentarze i krytykę często spotykam się z zarzutami, że PCA nie robi czegoś, do czego nigdy nie było przeznaczone lub do czego nie pasuje.
Nick Cox,

3
@NeilG: PCA nie jest modelem (probabilistycznym) generatywnym, ponieważ nie zawiera terminu szumu, a zatem nie ma z nim żadnego prawdopodobieństwa. Istnieje jednak probabilistyczna generalizacja (PPCA) i jest ona bardzo ściśle związana z PCA, patrz moja odpowiedź tutaj.
ameba

Odpowiedzi:


95

Oświadczenie: @ttnphns ma dużą wiedzę zarówno na temat PCA, jak i FA, i szanuję jego opinię i wiele się nauczyłem z wielu jego świetnych odpowiedzi na ten temat. Jednak nie zgadzam się z jego odpowiedzią tutaj, a także z innymi (licznymi) postami na ten temat tutaj w CV, nie tylko jego; a raczej myślę, że mają ograniczone zastosowanie.


Myślę, że różnica między PCA i FA jest przereklamowana.

Spójrz na to w ten sposób: obie metody starają się zapewnić przybliżenie niskiej rangi danej macierzy kowariancji (lub korelacji). „Niska ranga” oznacza, że ​​stosowana jest tylko ograniczona (niska) liczba ukrytych czynników lub głównych składników. Jeśli macierzy kowariancji danych to , modele są następujące:C.n×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Tutaj jest macierzą kolumnami (gdzie jest zwykle wybierana jako mała liczba, ), reprezentująca głównych składników lub czynników, jest macierzą tożsamości, a jest przekątną matryca. Każda metoda może być sformułowana jako znalezienie (i reszta) minimalizując [normę] różnicy między lewą i prawą stroną. k k k < n k I Ψ WWkkk<nkIΨW

PPCA oznacza probabilistyczną PCA , a jeśli nie wiesz, co to jest, na razie nie ma to tak wielkiego znaczenia. Chciałem o tym wspomnieć, ponieważ idealnie pasuje do PCA i FA, mając złożoność modelu pośredniego. Przedstawia także rzekomo dużą różnicę między PCA i FA: chociaż jest to model probabilistyczny (dokładnie tak jak FA), okazuje się, że jest prawie równoważny PCA ( obejmuje tę samą podprzestrzeń).W

Przede wszystkim należy pamiętać, że modele różnią się jedynie jak traktują przekątnej . Wraz ze wzrostem wymiarów , przekątna staje się coraz mniej ważna (ponieważ na przekątnej jest tylko elementów, a elementów poza przekątną). W rezultacie dla dużej liczby różnica pomiędzy PCA i FA zwykle nie jest znacząca , a obserwacja ta jest rzadko doceniana. Dla małych mogą się one naprawdę bardzo różnić. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Teraz, aby odpowiedzieć na twoje główne pytanie, dlaczego ludzie w niektórych dyscyplinach wydają się preferować PCA. Myślę, że sprowadza się to do tego, że jest matematycznie o wiele łatwiejsze niż FA (nie jest to oczywiste z powyższych wzorów, więc musisz mi tutaj uwierzyć):

  1. PCA - podobnie jak PPCA, która jest tylko nieco inna - ma rozwiązanie analityczne, podczas gdy FA nie. Tak więc FA musi być dopasowana numerycznie, istnieją różne algorytmy robienia tego, dające możliwie różne odpowiedzi i działające przy różnych założeniach itp. Itp. W niektórych przypadkach niektóre algorytmy mogą utknąć (patrz np. „Przypadki hejwooda”). W przypadku PCA przeprowadzasz rozkład własny i gotowe; FA jest o wiele bardziej chaotyczny.

    Technicznie rzecz biorąc, PCA po prostu obraca zmienne i dlatego można to nazwać zwykłą transformacją, jak to zrobił @NickCox w swoim komentarzu powyżej.

  2. Rozwiązanie PCA nie zależy od : możesz znaleźć pierwsze trzy komputery ( ), a pierwsze dwa będą identyczne z tymi, które można znaleźć, jeśli początkowo ustawisz . Nie dotyczy to FA: rozwiązanie dla niekoniecznie jest zawarte w rozwiązaniu dla . Jest to sprzeczne z intuicją i mylące.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Oczywiście FA jest bardziej elastycznym modelem niż PCA (w końcu ma więcej parametrów) i często może być bardziej przydatny. Nie sprzeciwiam się temu. Co ja jestem polemizując, jest twierdzenie, że są one bardzo różne pojęciowo z PCA jest o „opisujące dane” i FA jest o „znalezienie zmienne ukryte”. Po prostu nie wydaje mi się, żeby było to tak [prawie] prawdą.

Aby skomentować niektóre szczególne punkty wspomniane powyżej i powiązane odpowiedzi:

  • „w PCA liczba wymiarów do wyodrębnienia / zachowania jest zasadniczo subiektywna, podczas gdy w EFA liczba jest stała i zwykle trzeba sprawdzić kilka rozwiązań” - cóż, wybór rozwiązania jest nadal subiektywny, więc nie zobacz każdą różnicę koncepcyjną tutaj. W obu przypadkach jest (subiektywnie lub obiektywnie) wybierane, aby zoptymalizować kompromis między dopasowaniem modelu a złożonością modelu.k

  • „FA jest w stanie wyjaśnić korelacje parami (kowariancje). PCA generalnie nie może tego zrobić” - nie bardzo, oba wyjaśniają korelacje coraz lepiej wraz ze wzrostem .k

  • Czasami pojawia się dodatkowe zamieszanie (ale nie w odpowiedziach @ ttnphns!) Z powodu różnych praktyk w dyscyplinach wykorzystujących PCA i FA. Na przykład powszechną praktyką jest zmienianie czynników w FA w celu poprawy interpretacji. Rzadko robi się to po PCA, ale w zasadzie nic nie stoi na przeszkodzie. Ludzie często myślą, że FA daje ci coś „możliwego do interpretacji”, a PCA nie, ale często jest to złudzenie.

Na koniec jeszcze raz podkreślę, że w przypadku bardzo małych różnice między PCA i FA mogą być naprawdę duże i być może niektóre z roszczeń na korzyść FA są sformułowane z myślą o małych . Jako skrajny przykład, dla pojedynczy czynnik zawsze może doskonale wyjaśnić korelację, ale jeden komputer może nie zrobić tego dość źle.n n = 2nnn=2


Aktualizacja 1: generatywne modele danych

Z liczby komentarzy widać, że to, co mówię, jest kontrowersyjne. Aby jeszcze bardziej zalać sekcję komentarzy, oto kilka uwag dotyczących „modeli” (patrz komentarze @ttnphns i @gung). @ttnphns nie podoba się, że użyłem słowa „model” [macierzy kowariancji], aby odnieść się do powyższych przybliżeń; jest to kwestia terminologii, ale to, co nazywa „modelami”, to probabilistyczne / generatywne modele danych :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Należy zauważyć, że PCA nie jest modelem probabilistycznym i nie można go sformułować w ten sposób.

Różnica między PPCA i FA polega na określeniu szumu: PPCA zakłada taką samą wariancję szumu dla każdej zmiennej, podczas gdy FA zakłada różne wariancje („unikalność”). Ta niewielka różnica ma ważne konsekwencje. Oba modele mogą być wyposażone w ogólny algorytm maksymalizacji oczekiwań. Dla FA nie jest znane żadne rozwiązanie analityczne, ale dla PPCA można analitycznie wyprowadzić rozwiązanie, do którego EM się zbiega (zarówno i ). Okazuje się, że ma kolumny w tym samym kierunku, ale o mniejszej długości niż standardowe PCA (pomijam dokładne formuły). Z tego powodu uważam PPCA za „prawie” PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW w obu przypadkach obejmuje tę samą „główną podprzestrzeń”.

Dowód ( Tipping i Bishop 1999 ) jest nieco techniczny; intuicyjnym powodem, dla którego jednorodna wariancja hałasu prowadzi do znacznie prostszego rozwiązania, jest to, że te same wektory własne, co dla dowolnej wartości , ale nie jest to prawdą w przypadku .C σ 2 C - ΨCσ2ICσ2CΨ

Więc tak, @gung i @ttnphns mają rację, ponieważ FA opiera się na modelu generatywnym, a PCA nie, ale myślę, że ważne jest, aby dodać, że PPCA również opiera się na modelu generatywnym, ale „prawie” odpowiada PCA . Wtedy przestaje to wydawać się tak ważną różnicą.


Aktualizacja 2: dlaczego PCA zapewnia najlepsze przybliżenie macierzy kowariancji, skoro wiadomo, że szuka maksymalnej wariancji?

PCA ma dwa równoważne sformułowania: np. Pierwszy PC to (a) ten maksymalizujący wariancję projekcji i (b) ten zapewniający minimalny błąd rekonstrukcji. Bardziej abstrakcyjnie, równoważność między maksymalizacją wariancji a minimalizacją błędu rekonstrukcji można zobaczyć za pomocą twierdzenia Eckarta-Younga .

Jeśli jest macierzą danych (z obserwacjami w postaci wierszy, zakłada się, że zmienne jako kolumny i kolumny są wyśrodkowane), a rozkład SVD to , to dobrze wiadomo, że kolumny są wektorami własnymi macierzy rozproszenia (lub macierzy kowariancji, jeśli są podzielone przez liczbę obserwacji) więc są to osie maksymalizujące wariancję (tj. osie główne). Ale przez Eckart-Young twierdzenia, pierwsze komputery zapewnić najlepszą rank- przybliżenie do :XX=USVVC=XX=VS2VkkXXk=UkSkVk(notacja ta oznacza pobranie tylko największych pojedynczych wartości / wektorów) minimalizuje .kXXk2

Pierwsze komputery nie tylko zapewniają najlepszą rank- przybliżenie do , ale również do macierzy kowariancji . Rzeczywiście, , a ostatnie równanie zapewnia rozkład SVD z (ponieważ jest ortogonalny i jest przekątna). Więc Eckert-Young Twierdzenie mówi nam, że najlepszym rank- przybliżeniem do jest przez . Można to przekształcić, zauważając tok X C C = XX = V S 2 VC V S 2 k C C k = V k S 2 k V k W = V S C k = V k S 2 k V k = ( V S ) k ( V S ) k = WkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS to PCA, więc

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

Najważniejsze jest to, że jak podano na początku.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Aktualizacja 3: numeryczna demonstracja, że ​​PCA FA, gdyn n

@Ttnphns zachęcił mnie do przedstawienia liczbowego dowodu mojego twierdzenia, że ​​wraz ze wzrostem wymiarów rozwiązanie PCA zbliża się do rozwiązania FA. Oto jest.

Wygenerowałem macierz korelacji losowej z pewnymi silnymi korelacjami poza przekątną. Następnie wziąłem lewy górny kwadratowy blok tej macierzy ze zmiennymi , aby zbadać wpływ wymiarowości. Dla każdego wykonałem PCA i FA z liczbą składników / współczynników , a dla każdego obliczyłem błąd rekonstrukcji poza przekątną (zwróć uwagę, że na przekątnej FA doskonale rekonstruuje ze względu nan × n C n = 25 , 50 , 200 n k = 1 5 k i j [ C - W W] 2 i j C Ψ n k 1200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨokreślenie, podczas gdy PCA nie; ale przekątna jest tutaj ignorowana). Następnie dla każdego i obliczyłem stosunek błędu off-diagonalnego PCA do błędu off-diagonalnego FA. Ten stosunek musi być większy niż , ponieważ FA zapewnia najlepszą możliwą rekonstrukcję.nk1

Błąd rekonstrukcji przekątnej PCA vs FA

Po prawej stronie różne linie odpowiadają różnym wartościom , a jest pokazane na osi poziomej. Zauważ, że wraz ze wzrostem , stosunki (dla wszystkich ) zbliżają się do , co oznacza, że ​​PCA i FA dają w przybliżeniu takie same ładunki, PCA FA. Przy względnie małym , np. Gdy , PCA działa [przypuszczalnie] gorzej, ale różnica nie jest tak silna dla małego , a nawet dla stosunek jest poniżej .n n k 1 n n = 25 k k = 5 1.2knnk1nn=25kk=51.2

Współczynnik może stać się duży, gdy liczba czynników staje się porównywalna z liczbą zmiennych . W podanym powyżej przykładzie przy i , FA osiąga błąd rekonstrukcji, podczas gdy PCA nie, tzn. Stosunek byłby nieskończony. Ale wracając do pierwotnego pytania, gdy i , PCA będzie tylko nieznacznie przegrał z FA w wyjaśnianiu niediagonalnych część .n n = 2 k = 1 0 N = 21 K = 3 Cknn=2k=10n=21k=3C

Aby zilustrować przykład PCA i FA zastosowanych do prawdziwego zestawu danych (zestaw danych wina o ), zobacz moje odpowiedzi tutaj:n=13


2
Właśnie miałem zadać pytanie o matematyczną różnicę między technikami, ponieważ większość (poza tym doskonałych) odpowiedzi na ten temat nie zawiera wyraźnych porównań matematycznych. Ta odpowiedź jest dokładnie tym , czego szukałem.
shadowtalker

2
To bardzo cenne, rozwinięte konto ze świeżą perspektywą. Umieszczenie PPCA jako techniki pośredniej jest kluczowe - to właśnie z tego miejsca wyrasta Twoja opinia. Czy mogę prosić o pozostawienie większej ilości informacji na temat PPCA? - Co to jest , w jaki sposób jest szacowany (krótko) i co odróżnia go od , aby PPC (w przeciwieństwie do czynników) wypełniły podprzestrzeń zmiennych, a PPC nie zależy od . Ψ kσ2Ψk
ttnphns

3
Nadal zgadzam się z w / ttnphns tutaj, a rozróżnienie, że FA opiera się na ukrytych zmiennych, podczas gdy PCA jest tylko transformacją danych. Jest to jednak bardzo dobrze uzasadnione i przydatne przeciwne stanowisko. Przyczynia się do jakości tego wątku. +1
gung

5
@amoeba TWOJA ODPOWIEDŹ JEST WIELKA. To takie jasne i satysfakcjonujące. Dziękujemy za podzielenie się swoją wizją.
Subhash C. Davar,

2
@ user795305 Przepraszam, zapomniałem odpowiedzieć. Model FA napisany w Aktualizacji 1 jest poprawny. Utajone rzeczywiście powinno pochodzić z i być niezależne od . Rozwiązania ML dla i faktycznie NIE minimalizują normy jak napisałem w Aktualizacji 2; to było niechlujne i niepoprawne. Powinienem to naprawić, dzięki. Myślę jednak, że można powiedzieć, że rozwiązanie ML jest takie, że ; po prostu funkcja utraty nie jest tutaj normą różnicy, ale bardziej skomplikowanym wyrażeniem (prawdopodobieństwo dla ). N ( 0 , I ) ϵ W Ψ C - W W - Ψ C W W + Ψ C W W + ΨzN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
ameba

27

Jak powiedziałeś, znasz odpowiednie odpowiedzi ; patrz także : So, as long as "Factor analysis..."+ kilka ostatnich akapitów; i dolna lista tutaj . Krótko mówiąc, PCA jest głównie techniką redukcji danych, podczas gdy FA jest techniką modelowania cech utajonych. Czasami dają podobne wyniki; ale w twoim przypadku - ponieważ prawdopodobnie masz ochotę konstruować / sprawdzać ukryte cechy tak, jakby to były prawdziwe byty - używanie FA byłoby bardziej uczciwe i nie powinieneś preferować PCA w nadziei, że ich wyniki się zbiegną. Z drugiej strony, ilekroć chcesz podsumować / uprościć dane - na przykład w celu późniejszej analizy - wolisz PCA, ponieważ nie narzuca żadnego silnego modelu (który może być nieistotny) dla danych.

Mówiąc inaczej, PCA podaje wymiary, które mogą odpowiadać niektórym subiektywnie konstruktywnym konstrukcjom, jeśli chcesz, podczas gdy EFA stanowi, że są to nawet ukryte funkcje, które faktycznie wygenerowały twoje dane, i ma na celu znalezienie tych funkcji. W FA oczekuje się interpretacji wymiarów (czynników) - niezależnie od tego, czy możesz przypisać znaczenie do zmiennej utajonej, czy nie, to ona „istnieje” (FA jest niezbędna), w przeciwnym razie powinieneś usunąć ją z modelu lub uzyskać więcej danych do obsługi to. W PCA znaczenie wymiaru jest opcjonalne.

I jeszcze raz innymi słowy: kiedy wyodrębnisz m czynniki (oddzielne czynniki od błędów), te kilka czynników wyjaśni (prawie) całą korelację między zmiennymi, tak że zmienne nie pozostawiają miejsca na korelację poprzez błędy. Dlatego tak długo, jak „czynniki” są zdefiniowane jako ukryte cechy, które generują / wiążą skorelowane dane, masz pełne wskazówki do interpretacji tego - co jest odpowiedzialne za korelacje. W PCA (wyodrębniaj składniki jakby „czynniki”) błędy (mogą) nadal korelują między zmiennymi; więc nie możesz twierdzić, że wyodrębniłeś coś wystarczająco czystego i wyczerpującego, aby interpretować w ten sposób.

Być może zechcesz przeczytać moją drugą, dłuższą odpowiedź w bieżącej dyskusji, na temat niektórych teoretycznych i symulacyjnych szczegółów eksperymentu na temat tego, czy PCA jest realnym substytutem FA. Proszę również zwrócić uwagę na wybitne odpowiedzi @amoeba podane w tym wątku.


Aktualizacja : W odpowiedzi na to pytanie @amoeba, który się temu sprzeciwił, wprowadził (mało znaną) technikę PPCA jako stojącą w połowie drogi między PCA i FA. To naturalnie uruchomiło logikę, że PCA i FA są wzdłuż jednej linii, a nie przeciwnie. To cenne podejście poszerza horyzonty teoretyczne. Ale może maskować ważną praktyczną różnicę dotyczącą tego, że FA rekonstruuje (wyjaśnia) wszystkie pary kowariancji z kilkoma czynnikami, podczas gdy PCA nie może tego zrobić z powodzeniem (a kiedy to robi czasami - to dlatego, że zdarzyło się, że mime FA).


Dzięki za odpowiedź! Wyniki FA faktycznie w większości są zbieżne z wynikami uzyskanymi przez PCA. Jedyną rzeczą jest: autorzy pierwszego badania (moje to tłumaczenie + walidacja) zastosowali analizę PCA. Czy to wystarczy, aby zachować analizę PCA w mojej pracy i być może dodać zdanie wyjaśniające, że wyniki FA są zbieżne, czy też powinienem zastąpić PCA przez FA? Pamiętaj, że recenzent tak naprawdę nie prosi nas wprost o to, prosi jedynie o uzasadnienie, dlaczego wybraliśmy PCA zamiast FA.
Carine,

Myślę: jeśli autorzy zastosowali PCA, ale bardziej rygorystyczne / uczciwe podejście wymaga EFA w ich przypadku, należy porzucić krytykę, a następnie wykonać PCA lub zarówno PCA, jak i EFA, aby porównać wyniki.
ttnphns

2
Należy również zauważyć różnicę, że w PCA liczba wymiarów do wyodrębnienia / zachowania jest zasadniczo subiektywna, podczas gdy w EFA liczba jest stała i zwykle trzeba sprawdzić kilka rozwiązań, na przykład 3, ale 5 czynników, pod względem stopnia, w jaki odtwarzają macierz korelacji i to, jak dobrze są one interpretowalne. FA jest bardziej nużąca, dlatego ludzie często wolą robić PCA w przypadkach, w których sumienne podejście wymaga wypróbowania kilku przepustek EFA.
ttnphns

Zobacz także wpis w Wikipedii: en.wikipedia.org/wiki/…
RobertF

15

W tym moją odpowiedź (a drugim i dodatkowego do drugiej kopalni tutaj) postaram się pokazać w zdjęcia, które PCA nie przywrócić kowariancji każdy dobrze (podczas gdy przywraca - maksymalizuje - wariancji optymalnie).

Podobnie jak w wielu moich odpowiedziach dotyczących analizy PCA lub analizy czynnikowej, przejdę do wektorowej reprezentacji zmiennych w przestrzeni tematycznej . W tym przypadku jest to tylko wykres ładowania pokazujący zmienne i ładunki ich komponentów. Mamy więc i zmienne (mieliśmy tylko dwie w zbiorze danych), ich pierwszy główny składnik, z ładunkami i . Zaznaczony jest również kąt między zmiennymi. Zmienne zostały wstępnie wyśrodkowane, więc ich kwadratowe długości, i są ich odpowiednimi .X1X2Fa1a2h12h22

wprowadź opis zdjęcia tutaj

Kowariancja między i jest - to ich iloczyn skalarny - (ta , wartością korelacji). Ładunki PCA, oczywiście, wychwytują maksimum możliwej ogólnej wariancji przez , wariancję komponentuX1X2h1h2cosϕh12+h22a12+a22F

Teraz kowariancja , gdzie jest rzutem zmiennej na zmienną (rzut, który jest prognozą regresji pierwszego na sekundę). I tak wielkość kowariancji może być renderowana przez obszar prostokąta poniżej (o bokach i ).h1h2cosϕ=g1h2g1X1X2g1h2

wprowadź opis zdjęcia tutaj

Zgodnie z tak zwanym „twierdzeniem czynnikowym” (może wiedzieć, jeśli czytasz coś na temat analizy czynnikowej), kowariancja między zmiennymi powinna być (ściśle, jeśli nie dokładnie) odtworzona przez pomnożenie ładunków wydobytych zmiennych utajonych ( czytaj ). To znaczy, do , w naszym szczególnym przypadku (jeśli rozpoznać główny składnik jako naszą ukrytą zmienną). Tę wartość odtworzonego kowariancji można oddać przez obszar prostokąta o bokach i . Narysujmy prostokąt, wyrównany przez poprzedni prostokąt, aby porównać. Prostokąt jest pokazany jako kreskowany poniżej, a jego obszar jest nazywany cov * (reprodukowany cov ).a1a2a1a2

wprowadź opis zdjęcia tutaj

Oczywiste jest, że dwa obszary są dość odmienne, przy czym cov * jest znacznie większy w naszym przykładzie. Kowariancja została przeceniona przez ładunki , pierwszego głównego składnika. Jest to sprzeczne z kimś, kto mógłby oczekiwać, że PCA, tylko przez pierwszy z dwóch możliwych składników, przywróci obserwowaną wartość kowariancji.F

Co moglibyśmy zrobić z naszym spiskiem, aby ulepszyć reprodukcję? Możemy na przykład nieco obrócić wiązkę zgodnie z ruchem wskazówek zegara, nawet dopóki nie nałoży się ona na . Gdy ich linie się pokrywają, oznacza to, że zmusiliśmy do bycia naszą ukrytą zmienną. Wtedy ładowanie (rzut na na nim) będzie , a ładowanie (rzut na na nim) będzie . Zatem dwa prostokąty są takie same - ten, który został oznaczony jako cov , dzięki czemu kowariancja jest odtwarzana idealnie. Jednak , wariancja wyjaśniona przez nową „zmienną ukrytą”, jest mniejsza niżFX2X2a2X2h2a1X1g1g12+h22a12+a22 , wariancja wyjaśniona przez starą ukrytą zmienną, pierwszy główny składnik (kwadrat i stosy boków każdego z dwóch prostokątów na zdjęciu, dla porównania). Wydaje się, że udało nam się odtworzyć kowariancję, ale kosztem wyjaśnienia wielkości wariancji. Tj. Wybierając inną oś utajoną zamiast pierwszego głównego elementu.

Nasza wyobraźnia lub domysły mogą sugerować (nie będę i prawdopodobnie nie mogę tego udowodnić matematycznie, nie jestem matematykiem), że jeśli uwolnimy oś utajoną z przestrzeni zdefiniowanej przez i , płaszczyznę, pozwalając jej na wahanie nieco w naszym kierunku, możemy znaleźć jego optymalną pozycję - nazwijmy to, powiedzmy, - dzięki czemu kowariancja jest ponownie doskonale odtwarzana przez pojawiające się ładunki ( ), podczas gdy wyjaśniona jest wariancja ( ) będzie większa niż , jednakże nie tak duża, jak głównego składnika .X 2 F.X1X2Fa1a2a12+a22g12+h22a12+a22F

Uważam, że ten warunek jest możliwy do osiągnięcia, szczególnie w tym przypadku, gdy oś utajona zostaje wyciągnięta wychodząc z płaszczyzny w taki sposób, aby wyciągnąć „kaptur” dwóch pochodnych płaszczyzn ortogonalnych, z których jedna zawiera oś i i drugi zawiera oś i . Następnie tę ukrytą oś nazwiemy wspólnym czynnikiem , a cała nasza „próba oryginalności” zostanie nazwana analizą czynnikową .FX1X2


Odpowiedź na „Update 2” @ amoeba w odniesieniu do PCA.

@amoeba jest poprawne i istotne, aby przypomnieć twierdzenie Eckarta-Younga, które jest fundamentalne dla PCA i jego technik kongenerycznych (PCoA, biplot, analiza korespondencji) opartych na SVD lub rozkładzie własnym. Zgodnie z nim, pierwsze główne osie optymalnie minimalizują - ilość równa , - jak również . Tutaj oznacza dane odtworzone przez głównych osi. znany jest równa z jest zmienne obciążenia oX | | X - X k | | 2 t r ( X X ) -kX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk składniki.

Czy to oznacza, że minimalizacja pozostaje prawdą, jeśli weźmiemy pod uwagę tylko nie-przekątne części obu symetrycznych macierzy? Sprawdźmy to, eksperymentując.||XXXkXk||2

Wygenerowano 500 10x6macierzy losowych (rozkład równomierny). Dla każdego z nich, po wycentrowaniu jego kolumn, wykonano PCA i obliczono dwie zrekonstruowane macierze danych : jedna zrekonstruowana przez komponenty 1 do 3 ( najpierw, jak zwykle w PCA), a druga jak zrekonstruowana przez komponenty 1, 2 i 4 (to znaczy komponent 3 został zastąpiony słabszym komponentem 4). Błąd rekonstrukcji (suma kwadratowej różnicy = kwadratowa odległość euklidesowa) został następnie obliczony dla jednego , dla drugiego . Te dwie wartości to para do pokazania na wykresie rozrzutu.XXkk||XXXkXk||2XkXk

Błąd rekonstrukcji obliczano za każdym razem w dwóch wersjach: (a) porównano całe macierze i ; (b) porównywane są tylko nie-przekątne dwóch matryc. Mamy więc dwa wykresy rozrzutu, każdy z 500 punktami.XXXkXk

wprowadź opis zdjęcia tutaj

Widzimy, że na wykresie „cała macierz” wszystkie punkty leżą powyżej y=xlinii. Co oznacza, że ​​rekonstrukcja całej macierzy iloczynu skalarnego jest zawsze dokładniejsza o „1 do 3 składników” niż o „1, 2, 4 elementy”. Jest to zgodne z twierdzeniem Eckarta-Younga: pierwsze głównych komponentów to najlepsi monterzy.k

Jednak patrząc na wykres „tylko poza przekątną” zauważamy kilka punktów poniżej y=xlinii. Wydawało się, że czasami rekonstrukcja części nie przekątnych przez „1 do 3 składników” była gorsza niż przez „1, 2, 4 składniki”. Co automatycznie prowadzi do wniosku, że pierwszy główne składniki nie są regularnie najlepsze monterzy niediagonalnych produktów skalarnych wśród monterów dostępne w PCA. Na przykład, biorąc słabszy komponent zamiast silniejszego, może czasem poprawić rekonstrukcję.k

Tak więc, nawet w dziedzinie samego PCA , główne główne elementy - które, jak wiemy, przybliżają ogólną wariancję, a nawet całą macierz kowariancji - niekoniecznie przybliżają kowariancje poza przekątną . Konieczna jest zatem lepsza ich optymalizacja; i wiemy, że analiza czynnikowa jest (lub jedną z) techniką, która może to zaoferować.


Kontynuacja „Aktualizacji 3” @ amoeba: Czy PCA zbliża się do FA wraz ze wzrostem liczby zmiennych? Czy PCA jest ważnym substytutem FA?

Przeprowadziłem sieć badań symulacyjnych. Kilka struktur struktur populacyjnych, macierzy obciążeń zbudowano z liczb losowych i przekonwertowano na odpowiadające im macierze kowariancji populacyjnych jako , przy czym jest hałasem ukośnym (unikatowym wariancje). Te macierze kowariancji zostały wykonane ze wszystkimi wariancjami 1, dlatego były równe ich macierzom korelacji.AR=AA+U2U2

Zaprojektowano dwa typy struktury czynnikowej - ostre i rozproszone . Struktura ostra ma wyraźną prostą strukturę: obciążenia są albo „wysokie”, albo „niskie”, bez pośrednich; i (w moim projekcie) każda zmienna jest wysoce obciążona dokładnie jednym czynnikiem. Odpowiedni jest zatem zauważalnie podobny do bloku. Struktura rozproszona nie rozróżnia dużych i niskich obciążeń: mogą być dowolną wartością losową w granicach; i nie przewiduje się żadnego wzoru w obrębie obciążeń. W związku z tym odpowiedni jest płynniejszy. Przykłady macierzy populacji:RR

wprowadź opis zdjęcia tutaj

Liczba czynników wynosiła lub . Liczba zmiennych została określona przez stosunek k = liczba zmiennych na czynnik ; k wartości .264,7,10,13,16

Dla każdego z kilku skonstruowanego populacji , jego losowe realizacje od rozkładu Wishart wielkości próbki (pod ) generowano. Były to przykładowe macierze kowariancji . Każdy z nich był analizowany czynnikowo przez FA (przez ekstrakcję osi głównej), a także przez PCA . Dodatkowo każdą taką macierz kowariancji przekształcono w odpowiednią macierz korelacji próbki , która została również przeanalizowana (faktorowana) w ten sam sposób. Na koniec przeprowadziłem również faktoring samej macierzy „macierzystej”, kowariancji populacji (= korelacji). Miara adekwatności próbkowania według Kaisera-Meyera-Olkina zawsze przekraczała 0,7.R50n=200

W przypadku danych z 2 czynnikami analizy wyodrębniły 2, a także 1, a także 3 czynniki („niedoszacowanie” i „przeszacowanie” prawidłowej liczby reżimów czynników). W przypadku danych z 6 czynnikami analizy również wyodrębniły 6, a także 4, a także 8 czynników.

Celem badań było przywrócenie kowariancji / korelacji między FA a PCA. W ten sposób uzyskano resztki elementów o przekątnej. Zarejestrowałem resztki między odtworzonymi elementami a elementami macierzy populacji, a także resztki między pierwszymi a analizowanymi elementami macierzy próbki. Resztki pierwszego typu były koncepcyjnie bardziej interesujące.

Wyniki uzyskane po analizach przeprowadzonych na kowariancji próbki i na matrycach korelacji próbki miały pewne różnice, ale wszystkie główne ustalenia okazały się podobne. Dlatego omawiam (pokazuję wyniki) tylko analizy „trybu korelacji”.

1. Ogólne dopasowanie poza przekątną przez PCA vs FA

Poniższe grafiki przedstawiają, w zależności od różnej liczby czynników i różnych wartości k, stosunek średniej kwadratowej odchyłki od przekątnej uzyskanej w PCA do tej samej ilości uzyskanej w FA . Jest to podobne do tego, co @amoeba pokazało w „Aktualizacji 3”. Linie na wykresie reprezentują średnie tendencje w 50 symulacjach (pomijam pokazywanie na nich słupków błędów świętego).

(Uwaga: wyniki dotyczą faktoryzacji losowych macierzy korelacji próbek , a nie faktoryzowania ich rodzicielskiej macierzy populacji: niemądre jest porównywanie PCA z FA pod względem tego, jak dobrze wyjaśniają macierz populacji - FA zawsze wygra, a jeśli wyodrębniona zostanie prawidłowa liczba czynników, jej reszty będą prawie zerowe, więc stosunek przyspieszy do nieskończoności.)

wprowadź opis zdjęcia tutaj

Komentując te wątki:

  • Ogólna tendencja: gdy k (liczba zmiennych na czynnik) rośnie, ogólny stosunek podtekstu PCA / FA zanika w kierunku 1. Oznacza to, że przy większej liczbie zmiennych PCA zbliża się do FA w wyjaśnianiu korelacji / kowariancji poza przekątną. (Udokumentowane przez @amoeba w jego odpowiedzi.) Prawdopodobnie prawem zbliżającym krzywe jest stosunek = exp (b0 + b1 / k) przy b0 bliskiej 0.
  • Stosunek jest większy wrt reszt „próbka minus odtworzona próbka” (lewy wykres) niż wrt reszt „populacja minus odtworzona próbka” (prawy wykres). To znaczy (trywialnie), że PCA jest gorsze od FA pod względem dopasowania matrycy do natychmiastowej analizy. Jednak linie na lewym wykresie mają szybsze tempo zmniejszania, więc dla k = 16 stosunek ten jest również poniżej 2, tak jak na prawym wykresie.
  • Przy resztkach „populacja minus próbka odtworzona” trendy nie zawsze są wypukłe, a nawet monotoniczne (pokazane są nietypowe łokcie). Tak więc, dopóki mowa dotyczy wyjaśniania macierzy populacyjnej współczynników poprzez faktoryzację próbki, zwiększenie liczby zmiennych nie zbliża regularnie PCA do FA pod względem jego jakości fittinq, chociaż istnieje tendencja.
  • Stosunek jest większy dla czynników m = 2 niż dla czynników m = 6 w populacji (pogrubione czerwone linie znajdują się poniżej pogrubionych zielonych linii). Co oznacza, że ​​przy większej liczbie czynników działających na danych PCA szybciej dogania FA. Na przykład na prawym wykresie k = 4 daje współczynnik wydajności około 1,7 dla 6 czynników, podczas gdy ta sama wartość dla 2 czynników jest osiągana przy k = 7.
  • Stosunek jest wyższy, jeśli wyodrębnimy więcej czynników w stosunku do prawdziwej liczby czynników. Oznacza to, że PCA jest tylko nieznacznie gorszym instalatorem niż FA, jeśli przy ekstrakcji nie doceniamy liczby czynników; i traci na tym więcej, jeśli liczba czynników jest prawidłowa lub przeszacowana (porównaj cienkie linie z pogrubionymi liniami).
  • Ciekawy jest efekt ostrości struktury czynnikowej, który pojawia się tylko wtedy, gdy weźmiemy pod uwagę resztki „populacja minus odtworzona próbka”: porównaj wykresy szare i żółte po prawej stronie. Jeśli czynniki populacji rozpraszają zmienne, czerwone linie (m = 6 czynników) opadają na dno. Oznacza to, że w strukturze rozproszonej (takiej jak ładunki liczb chaotycznych) PCA (wykonywane na próbce) jest tylko kilka gorszych niż FA w rekonstrukcji korelacji populacji - nawet przy małym k, pod warunkiem, że liczba czynników w populacji nie jest bardzo mały. Jest to prawdopodobnie stan, w którym PCA jest najbardziej zbliżony do FA i jest najbardziej uzasadniony jako substytut cheeper. Podczas gdy w obecności ostrej struktury czynnikowej PCA nie jest tak optymistyczna w rekonstrukcji korelacji populacji (lub kowariancji): zbliża się do FA tylko w dużej perspektywie k.

2. Dopasowanie na poziomie elementu przez PCA vs FA: rozkład reszt

Dla każdego eksperymentu symulacyjnego, w którym przeprowadzono faktoring (za pomocą PCA lub FA) 50 losowych macierzy próbek z macierzy populacji, uzyskano rozkład reszt „korelacja populacji minus odtworzona (przez faktoring) korelacja próbki” dla każdego nie korelacyjnego elementu diagonalnego). Rozkłady były zgodne z wyraźnymi wzorami, a przykłady typowych rozkładów przedstawiono bezpośrednio poniżej. Wyniki po faktoryzacji PCA są niebieskie po lewej stronie, a wyniki po faktoryzacji FA są zielone po prawej stronie.

wprowadź opis zdjęcia tutaj

Najważniejsze jest to

  • Wymienione, według wielkości bezwzględnej, korelacje populacyjne są przywracane przez PCA nieadekwatnie: odtworzone wartości są zawyżone o wielkość.
  • Ale odchylenie zanika, gdy wzrasta k (stosunek liczby zmiennych do liczby czynników). Na zdjęciu, gdy na czynnik jest tylko k = 4 zmienne, reszty PCA rozkładają się w przesunięciu od zera. Widać to zarówno wtedy, gdy istnieją 2 czynniki, jak i 6 czynników. Ale przy k = 16 przesunięcie jest prawie niewidoczne - prawie zniknęło, a dopasowanie PCA zbliża się do dopasowania FA. Nie obserwuje się różnicy w rozprzestrzenianiu (wariancji) reszt między PCA i FA.

Podobny obraz widać również wtedy, gdy liczba wyodrębnionych czynników nie pasuje do prawdziwej liczby czynników: zmienia się jedynie wariancja reszt.

Przedstawione powyżej rozkłady na szarym tle odnoszą się do eksperymentów z ostrą (prostą) strukturą czynników obecnych w populacji. Kiedy wszystkie analizy przeprowadzono w sytuacji rozproszonej struktury współczynnika populacji, stwierdzono, że odchylenie PCA zanika nie tylko wraz ze wzrostem k, ale także ze wzrostem m (liczba czynników). Zobacz pomniejszone załączniki z żółtym tłem do kolumny „6 współczynników, k = 4”: dla wyników PCA nie zaobserwowano prawie żadnego przesunięcia od zera (przesunięcie jest jeszcze obecne przy m = 2, które nie jest pokazane na zdjęciu ).

Myśląc, że opisane odkrycia są ważne, postanowiłem zbadać te rozkłady resztkowe głębiej i wykreśliłem wykresy rozrzutu reszt (oś Y) względem wartości elementu (korelacja populacji) (oś X). Te wykresy rozrzutu łączą wyniki wszystkich (50) symulacji / analiz. Linia dopasowania LOESS (50% punktów lokalnych do użycia, jądro Epanechnikov) jest podświetlona. Pierwszy zestaw wykresów dotyczy ostrej struktury czynnikowej w populacji (w związku z tym oczywista jest trójmodalność wartości korelacji):

wprowadź opis zdjęcia tutaj

Komentowanie:

  • Wyraźnie widzimy (opisaną powyżej) tendencję do odtwarzania, która jest charakterystyczna dla PCA jako skośna, negatywna linia trendu lessowego: duże korelacje populacji w wartościach bezwzględnych są przeszacowane przez PCA przykładowych zestawów danych. FA jest obiektywna (pozioma lessa).
  • W miarę wzrostu k tendencja PCA maleje.
  • PCA jest tendencyjna bez względu na to, ile czynników występuje w populacji: przy 6 czynnikach (i 6 wyodrębnionych w analizach) jest podobnie wadliwa, jak przy 2 czynnikach (2 wyodrębnione).

Drugi zestaw wykresów poniżej dotyczy struktury czynników rozproszonych w populacji:

wprowadź opis zdjęcia tutaj

Ponownie obserwujemy odchylenie PCA. Jednak w przeciwieństwie do przypadku ostrej struktury czynnikowej, odchylenie zanika wraz ze wzrostem liczby czynników: przy 6 czynnikach populacji, linia lessowa PCA nie jest daleka od poziomej nawet przy k tylko 4. To właśnie wyraziliśmy przez „ żółte histogramy ”wcześniej.

Ciekawym zjawiskiem na obu zestawach wykresów rozrzutu jest to, że linie lessowe dla PCA mają zakrzywione litery S. Ta krzywizna pokazuje się pod innymi losowo skonstruowanymi przeze mnie strukturami (ładunkami) populacji (sprawdziłem), chociaż jej stopień zmienia się i często jest słaby. Jeśli wynika to z kształtu S, to PCA zaczyna gwałtownie zniekształcać korelacje, gdy odbijają się od zera (szczególnie przy małym k), ale od pewnej wartości około - 30 lub 0,40 - stabilizuje się. Nie będę w tej chwili spekulować z powodu możliwego powodu takiego zachowania, choć uważam, że „sinusoida” wynika z tryginometrycznej natury korelacji.

Fit by PCA vs FA: Wnioski

Jako ogólny monter części diagonalnej macierzy korelacji / kowariancji, PCA - gdy jest stosowany do analizy matrycy próbki z populacji - może być dość dobrym substytutem analizy czynnikowej. Dzieje się tak, gdy stosunek liczby zmiennych / liczby oczekiwanych czynników jest wystarczająco duży. (Geometryczny powód korzystnego efektu stosunku wyjaśniono w dolnym przypisie ). Przy większej liczbie czynników stosunek może być mniejszy niż przy niewielu czynnikach. Obecność ostrej struktury czynnikowej (w populacji istnieje prosta struktura) utrudnia PCA zbliżenie się do jakości FA.1

Wpływ struktury ostrego czynnika na ogólną zdolność dopasowania PCA jest widoczny tylko pod warunkiem uwzględnienia reszt „populacji bez odtworzonej próbki”. Dlatego nie można rozpoznać go poza środowiskiem badań symulacyjnych - w badaniu obserwacyjnym próbki nie mamy dostępu do tych ważnych pozostałości.

W przeciwieństwie do analizy czynnikowej PCA jest (dodatnio) tendencyjnym estymatorem wielkości korelacji populacji (lub kowariancji), które są dalekie od zera. Jednak tendencyjność PCA maleje wraz ze wzrostem stosunku liczby zmiennych / liczby oczekiwanych czynników. Uprzedzenie również maleje wraz ze wzrostem liczby czynników w populacji, ale ta ostatnia tendencja jest hamowana przez obecną ostrą strukturę czynników.

Chciałbym zauważyć, że polaryzacja dopasowania PCA i wpływ ostrej struktury na nią można odkryć również w przypadku pozostałości „próbka minus próbka odtworzona”; Po prostu pominąłem pokazywanie takich wyników, ponieważ wydają się nie dodawać nowych wrażeń.

Moja bardzo niepewna, szeroka rada może w końcu powstrzymać się od stosowania PCA zamiast FA dla typowych (tj. Przy 10 lub mniej czynników oczekiwanych w populacji) czynników analitycznych , chyba że masz jakieś 10+ razy więcej zmiennych niż czynniki. Im mniej czynników, tym poważniejszy jest niezbędny stosunek. Ponadto nie zalecałbym w ogóle stosowania PCA zamiast FA za każdym razem, gdy analizowane są dane o ugruntowanej, ostrej strukturze czynnikowej - na przykład gdy przeprowadzana jest analiza czynnikowa w celu zweryfikowania opracowanego lub już uruchomionego testu psychologicznego lub kwestionariusza z przegubowymi konstruktami / skalami . PCA może być wykorzystane jako narzędzie do wstępnej, wstępnej selekcji przedmiotów do instrumentu psychometrycznego.

Ograniczenia badania. 1) Użyłem tylko metody ekstrakcji czynnikowej PAF. 2) Wielkość próbki została ustalona (200). 3) Przy pobieraniu próbek matryc przyjęto normalną populację. 4) Dla ostrej struktury modelowano równą liczbę zmiennych na czynnik. 5) Konstruując ładunki czynnika populacji, pożyczyłem je od z grubsza jednolitego (dla ostrej struktury - trójnożnego, tj. 3-częściowego jednorodnego) rozkładu. 6) W tym natychmiastowym badaniu mogą oczywiście wystąpić niedopatrzenia, jak wszędzie.


Przypis . PCA będzie naśladować wyniki FA i stanie się równoważnym korektorem korelacji, gdy - jak powiedziano tutaj - zmienne błędu modelu, zwane czynnikami unikalnymi , staną się nieskorelowane. FA dąży do uczynienia ich nieskorelowanymi, ale PCA nie, mogą się zdarzyć, że są niepowiązane z PCA. Głównym warunkiem, kiedy może wystąpić, jest duża liczba zmiennych na liczbę wspólnych czynników (składników utrzymywanych jako wspólne czynniki).1

Rozważ następujące zdjęcia (jeśli musisz najpierw nauczyć się je rozumieć, przeczytaj tę odpowiedź ):

wprowadź opis zdjęcia tutaj

Aby wymóg analizy czynnikowej umożliwił pomyślne przywrócenie korelacji z kilkoma mwspólnymi czynnikami, unikalne czynniki , charakteryzujące statystycznie niepowtarzalne części zmiennych manifestu , muszą być nieskorelowane. Kiedy stosuje się PCA, muszą leżeć w podprzestrzeni -przestrzeni rozpiętej przez ponieważ PCA nie opuszcza przestrzeni analizowanych zmiennych. Zatem - patrz lewy - z ( czynnik główny jest analizowany ) i ( , ) analizowane, unikalne czynniki ,UpXp Up-mpXm=1P1p=2X1X2U1U2obowiązkowo nakładają się na pozostały drugi składnik (służąc jako błąd analizy). W związku z tym muszą być skorelowane z . (Na zdjęciu korelacje są równe cosinusom kątów między wektorami.) Wymagana ortogonalność jest niemożliwa, a obserwowanej korelacji między zmiennymi nigdy nie można przywrócić (chyba że unikatowymi czynnikami są wektory zerowe, trywialny przypadek).r=1

Ale jeśli dodasz jeszcze jedną zmienną ( ), prawy i wyodrębnij jeszcze jeden pr. jako wspólny czynnik, trzy muszą leżeć w płaszczyźnie (zdefiniowanej przez pozostałe dwa pr. składowe). Trzy strzały mogą obejmować płaszczyznę w taki sposób, że kąty między nimi są mniejsze niż 180 stopni. Pojawia się wolność dla kątów. Jako możliwy szczególny przypadek kąty mogą być w przybliżeniu równe, 120 stopni. To już nie jest bardzo daleko od 90 stopni, to znaczy od nieskorelacji. Tak wygląda sytuacja na zdjęciu.X3U

Gdy dodamy czwartą zmienną, 4 będzie obejmować przestrzeń 3d. Z 5, 5 do rozpiętości 4d itp. Przestrzeń dla wielu kątów jednocześnie, aby osiągnąć bliżej 90 stopni, powiększy się. Co oznacza, że ​​przestrzeń dla PCA, aby zbliżyć się do FA w jego zdolności do dopasowywania trójkątów macierzy korelacji, również się powiększy.U

Ale prawdziwy FA jest zwykle w stanie przywrócić korelacje nawet przy małym stosunku „liczby zmiennych / liczby czynników”, ponieważ, jak wyjaśniono tutaj (i patrz tam drugi rysunek), analiza czynnikowa pozwala na wszystkie wektory czynnikowe (wspólny (-e) i unikalny) te), aby odejść od leżenia w przestrzeni zmiennych. Stąd jest miejsce na ortogonalność nawet przy tylko 2 zmiennych i jednym czynniku.UX

Powyższe zdjęcia dają również oczywistą wskazówkę, dlaczego PCA przecenia korelacje. Po lewej pic, na przykład , gdzie S są występy o S na (obciążenie od ) i S są długościami s (obciążeniach ). Ale ta korelacja zrekonstruowana przez sam jest równa tylko , tj. Większa niż .rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Uwielbiam twoje rysunki PCA / FA / CCA, więc z radością daje +1. Ten sposób myślenia jest czymś, do czego nie jestem przyzwyczajony, więc wymaga zastanowienia się nad matematyką, którą znam ... Pamiętaj jednak, że tutaj (podobnie jak w innej znanej odpowiedzi FA-vs-PCA z rysunki) masz tylko dwie zmienne. Jak powiedziałem w mojej odpowiedzi, gdy są tylko dwie zmienne, wystarczy jeden czynnik w FA, aby idealnie, 100%, odtworzyć kowariancję (ponieważ istnieje tylko jeden stopień swobody w macierzy kowariancji, oprócz przekątnej), ale jeden komputer na ogół nie może tego zrobić. Nie ma więc sprzeczności z moją odpowiedzią.
ameba

Hmm, mam nadzieję, że nie pomyliłem się co do sensu odmiennej reprodukcji przez FA i PCA. To miejsce jest za krótkie, aby powiedzieć, o co mi chodzi, postawiłbym to w innej odpowiedzi
Gottfried Helms

2
Odpowiedź na twoją aktualizację (która jest odpowiedzią na moją aktualizację 2): Absolutnie zgadzam się ze wszystkim, co tu napisałeś! Ładunki PCA są najlepszym przybliżeniem niskiego rzędu do całej macierzy kowariancji (w tym przekątnej), ale niekoniecznie najlepszym przybliżeniem niskiego rzędu do jej części poza przekątnej; to ostatnie przybliżenie wynika z analizy czynnikowej. Wygląda na to, że osiągnęliśmy tu porozumienie; czy nadal czujesz, że niektóre części mojej odpowiedzi zaprzeczają twojemu myśleniu?
ameba

1
@ttnphns: Ponownie przeczytałem naszą dyskusję powyżej i pozwolę sobie wrócić do jednego punktu, który podałem w mojej pierwotnej odpowiedzi. PCA próbuje znaleźć ładunki zbliżone do całej macierzy kowariancji; FA stara się znaleźć ładunki zbliżone do jej części po przekątnej. Ale im większa wymiarowość, tym mniejszą część macierzy kowariancji zajmuje jej przekątna, co oznacza, że ​​w dużych wymiarach PCA zaczyna przejmować się głównie jej częścią poza przekątną (ponieważ część przekątna staje się tak mała). Tak więc ogólnie, im większa wymiarowość, tym bliżej PCA staje się FA. Czy sie zgadzasz?
ameba

1
Dzięki za ping, ttnphns. Wow, to wygląda interesująco. Przeczytam go uważnie, ale nie teraz; Być może będę musiał to przełożyć do stycznia. Skomentuję tutaj, gdy go przeczytam. Nawiasem mówiąc, myślałem (z tyłu mojej głowy) o powrocie do tego wątku i odrobinie edycji mojej odpowiedzi, aby uczynić ją bardziej „pojednawczą”. To może być dobra okazja, aby to zrobić (ale pozwól mi przeczytać to, co napisałeś wcześniej). С наступающим!
ameba

4

(To jest naprawdę komentarz do drugiej odpowiedzi @ ttnphns)
Jeśli chodzi o inny typ reprodukcji kowariancji zakładający błąd przez PC i FA, po prostu wydrukowałem ładunki / elementy wariancji, które występują w dwóch poprzednich ; tylko dla przykładów wziąłem 2 zmienne.

Zakładamy konstrukcję dwóch elementów jako jednego wspólnego czynnika i czynników specyficznych dla przedmiotu. Oto macierz ładunków czynnikowych:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

Oto macierz korelacji

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Jeśli spojrzymy na macierz obciążeń L_fa i interpretujemy ją jak zwykle w FA, że f2 i f3 są terminami błędów / błędem specyficznym dla przedmiotu, odtwarzamy C bez tego błędu, otrzymując

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Tak więc doskonale odtworzyliśmy element nie przekątny, który jest kowariancją (a przekątna jest zmniejszona)

Jeśli spojrzymy na rozwiązanie pca (można to zrobić za pomocą prostych rotacji), otrzymujemy dwa czynniki z tej samej macierzy korelacji:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Zakładając drugi czynnik jako błąd, otrzymujemy odtworzoną macierz kowariancji

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

gdzie przeceniliśmy prawdziwą korelację. Jest tak, ponieważ zignorowaliśmy korektę ujemnej kowariancji częściowej w drugim czynniku = błąd. Zauważ, że PPCA byłby identyczny z pierwszym przykładem.

Przy większej liczbie przedmiotów nie jest to już tak oczywiste, ale wciąż nieodłączny efekt. Dlatego istnieje również koncepcja ekstrakcji MinRes (czy -rotacji?), A także widziałem coś takiego jak ekstrakcja z maksymalną determinantą i ...


[aktualizacja] Co do pytania @amoeba:

Zrozumiałem pojęcie „minimalnych reszt” („MinRes”) - rotacji jako metody zbieżnej z wcześniejszymi metodami obliczania CFA, w celu uzyskania najlepszej reprodukcji nie-diagonalnych elementów macierzy korelacji. Nauczyłem się tego w latach 80. i 90. i nie śledziłem rozwoju analizy czynnikowej (tak głębokiej jak wcześniej w ostatnich latach), więc być może „MinRes” jest nie na czasie.

Aby porównać to z rozwiązaniem PCA : można pomyśleć o znalezieniu rozwiązania pc przez rotację czynników, gdy są one uważane za osie w przestrzeni euklidesowej, a ładunki są współrzędnymi elementów w tej przestrzeni wektorowej.
Następnie dla pary osi powiedz x, y obliczane są sumy kwadratów z obciążeń osi x i osi y.
Na tej podstawie można znaleźć kąt obrotu, o który powinniśmy się obracać, aby uzyskać sumy kwadratów w obróconych osiach maksymalne na osi x ° i minimalne na osi y ° (gdzie mały okrąg wskazuje obrócone osie) .

Robi to dla wszystkich par osi (gdzie zawsze tylko oś x jest lewa, a oś y jest prawa (więc dla 4 czynników mamy tylko 6 par obrotu)), a następnie powtórz cały proces do stabilnego wyniku realizuje tak zwaną „metodę Jacobiego” w celu znalezienia rozwiązania głównych komponentów: zlokalizuje pierwszą oś tak, że zbierze maksymalną możliwą sumę kwadratów obciążeń („SSqL”) (co oznacza również „wariancję” ”) na jednej osi w bieżącej konfiguracji korelacyjnej.

O ile rozumiałem rzeczy, „ MinRes ” powinien patrzeć na częściowe korelacje zamiast SSqL; więc nie sumuje kwadratów obciążeń (jak to zrobiono w rotacji Jacobi-pc), ale sumuje krzyże produktów obciążeń w każdym czynniku - z wyjątkiem „produktów krzyżowych” (= kwadratów) obciążeń każdego przedmiot z samym sobą.
Po obliczeniu kryteriów dla osi xi dla osi y przebiega to w taki sam sposób, jak opisano dla iteracyjnego obrotu jacobi.

Ponieważ kryterium obrotu różni się liczbowo od kryterium maksymalnej wartości SSqL, wynik / pozycja obrotu powinny różnić się od rozwiązania PCA. Jeśli jest zbieżny, powinien zamiast tego zapewnić maksymalną możliwą korelację częściową na jednej osi w pierwszym czynniku, następną maksymalną korelację na następnym czynniku i tak dalej. Wydaje się, że chodzi o założenie tak wielu osi / czynników, że pozostała / resztkowa kowariancja cząstkowa staje się marginalna.

(Zauważ, że to tylko sposób, w jaki interpretowałem rzeczy, nie widziałem tej procedury wyraźnie spisanej (lub w tej chwili nie pamiętam); opis w matematyce wydaje się wyrażać ją raczej w kategoriach formuł jak w odpowiedzi Amoeby ) i jest prawdopodobnie bardziej autorytatywny. Właśnie znalazłem inne odniesienie w dokumentacji projektu R i prawdopodobnie bardzo dobre odniesienie w książce Gorsuch na temat analizy czynników, strona 116, dostępnej za pośrednictwem google-books )


Czy możesz wyjaśnić, o czym mówisz w ostatnim zdaniu? Co to jest ekstrakcja „MinRes” lub „wyznacznik maksymalnej” i jak to się ma do tego, co napisałeś wcześniej?
ameba

„MinRes” to jakaś metoda ekstrakcji lub rotacji, na którą natknąłem się wiele lat temu w monografii S Mulaika lub K. Überli na temat analizy czynnikowej. Koncentruje się na minimalizowaniu resztkowych elementów nieregularnych. Ponieważ zostało to wyraźnie wspomniane w kontekście wielu innych metod, założyłem, że - prawdopodobnie nieznacznie - różni się od implementacji CFA - tamtych czasów. Próbowałem wdrożyć jego uzasadnienie jako kryterium rotacji, ale jakoś nie przyniosło rozstrzygających rezultatów. Spodziewałem się także, że „Maksymalizacja wyznacznika” będzie tutaj znane; Zobaczę, jaki opis otrzymałem 20 lat temu ...
Gottfried Helms

Achh, mam obie części. Opis kryterium rotacji uzasadnienia „minres” znajduje się na go.helms-net.de/stat/fa/minres.htm . „Maksymalna wyznacznik” to model matematyczny w metodzie ekstrakcji / rotacji pewnego korespondenta Jeffreya Owena Katza, który nazwał go „oblisim” i prawdopodobnie został opracowany po naszej korespondencji. W tym czasie było już nad moją głową; w każdym razie starałem się zrozumieć tę metodę, sformatowałem ją i zreorganizowałem w plik słowny. Zobacz go.helms-net.de/stat/fa/oblisim.zip Google dla „oblisim” dał wpis w grupie dyskusyjnej, który prawdopodobnie go wprowadził.
Gottfried Helms

@amoeba: Być może jest to pierwszy wpis, w którym Jeff Katz przedstawił swój zestaw metod: mathforum.org/kb/message.jspa?messageID=1516627 Jest rok 1998, więc przypuszczam, że około 20 lat temu było trochę nieprecyzyjne ...
Gottfried Helms

2

Moim zdaniem pojęcia „PCA” i „FA” mają inny wymiar niż pojęcia „eksploracyjny”, „potwierdzający”, a może „wnioskowy”. Tak więc każdą z dwóch metod matematycznych / statystycznych można zastosować za pomocą jednego z trzech podejść.

Na przykład, dlaczego nie ma sensu mieć hipotezy, że moje dane mają ogólny czynnik, a także strukturę zestawu głównych składników (ponieważ mój eksperyment z moim aparatem elektronicznym dał mi prawie bezbłędne dane) i testuję moją hipotezę, że wartości własne kolejnych czynników występują ze współczynnikiem 75%? Jest to następnie PCA w ramach potwierdzających.

Z drugiej strony wydaje się absurdalne, że w naszym zespole badawczym tworzymy z dużym wysiłkiem baterię przedmiotu do mierzenia przemocy między uczniami i zakładania 3 głównych zachowań (agresja fizyczna, depresja, poszukiwanie pomocy przez władze / rodziców) i stawiania odpowiednich pytań w tej baterii… i „eksploracyjnie” określ, ile mamy czynników… Zamiast tego spojrzeć, jak dobrze nasza skala zawiera trzy rozpoznawalne czynniki (oprócz zaniedbywalnych specyficznych dla przedmiotu, a być może nawet fałszywie skorelowanych błędów). A potem, gdy potwierdzę, że rzeczywiście nasza bateria przedmiotów służy temu celowi, możemy przetestować hipotezę, że w klasach młodszych dzieci obciążenia współczynnikiem wskazującym na „szukanie pomocy przez władze” są wyższe niż u starszych uczniów. Hmmm, jeszcze raz potwierdzający ...

I eksploracyjny? Mam zestaw środków zaczerpniętych z badań nad mikrobiologią z 1960 r. I nie mieli zbyt wiele teorii, ale pobrali próbkę wszystkiego, czym mogliby zarządzać, ponieważ ich dziedzina badań była po prostu bardzo młoda, i ponownie badam dominującą strukturę czynników, zakładając (na przykład) , że wszystkie błędy są tej samej wielkości ze względu na precyzję optyczną zastosowanego mikroskopu (ppca-ansatz, jak właśnie się dowiedziałem). Następnie używam statystycznego (a następnie matematycznego) modelu dla FA, ale w tym przypadku w sposób eksploracyjny.

Tak przynajmniej rozumiem warunki.
Może jestem tutaj na niewłaściwym torze, ale nie zakładam tego.


Ps. W latach 90. napisałem mały interaktywny program do zbadania metody PCA i analizy czynnikowej na samym dole. Został napisany w Turbo-Pascal, nadal można go uruchamiać tylko w oknie Dos („Dos-box” pod Win7), ale ma naprawdę przyjemny urok: interaktywnie przełączać czynniki, które należy uwzględnić lub nie, a następnie obracać, oddzielny błąd specyficzny dla przedmiotu - wariancja (zgodnie z kryterium SMC lub kryterium równości wariancji (ppca?)), włączanie i wyłączanie opcji Kaiser, włączanie i wyłączanie kowariancji - wszystko to, podczas gdy macierz współczynników obciążenia jest widoczna jak w arkuszu kalkulacyjnym i może być obracany dla podstawowych różnych metod obrotu.
Nie jest to bardzo wyrafinowane: na przykład bez testu chisquare, tylko do samodzielnego uczenia się wewnętrznej mechaniki matematycznej. Ma również „tryb demo”, w którym program działa sam, wyświetlając wyjaśnienia na ekranie i symulując klawiaturę, co normalnie zrobiłby użytkownik.
Każdy, kto jest zainteresowany samodzielnym studiowaniem lub nauczaniem, może pobrać go z moich małych stron oprogramowania w (R) .zip Po prostu rozwiń pliki w zipie w katalogu dostępnym dla Dos-Box i wywołaj „demoall.bat” w trzecia część „wersji demonstracyjnej” Zrobiłem demonstrację, w jaki sposób modelować błędy specyficzne dla przedmiotu za pomocą rotacji z początkowo rozwiązania pca ...


Port R twojego programu byłby interesujący. Nawiasem mówiąc, moim pierwszym językiem programowania (i jednym z ulubionych) był [Turbo] Pascal. Użyłem go nawet do pisania oprogramowania do mojej pracy dyplomowej BS. Potem jakiś czas później użyłem Delphi, wraz z innymi językami i systemami. :-)
Aleksandr Blekh

1
@Aleksandr: Cóż, taki import byłby z pewnością dobrym pomysłem; jednak ... tymczasem dostaję „bilety seniora” dla lokalnego systemu ruchu i chociaż nie jestem jeszcze zmęczony, jestem trochę zmęczony programowaniem… Myślę, że „Delphi” był naturalnym zamiennikiem Turbo Pascal ; Znacznie ulepszyłem ten Inside- [r] do kalkulatora macierzowego „MatMate” za pomocą Delphi 6, w którym włączyłem Inside- [r] jako narzędzie pomocnicze. Czasami jednak myślę, że ta naprawdę fajna funkcja z funkcją wskaż i kliknij wewnątrz - [r] powinna również zostać ponownie zrealizowana - oprócz każdego wyrafinowanego skryptu lub języka interpreterl ...
Gottfried Helms

2

Jeszcze jedna dodatkowa uwaga na długą (i naprawdę świetną) odpowiedź @ amoebas na temat znaku -estimate. Ψ

W początkowych instrukcjach masz trzy : dla PCA jest , dla PPCA jest a dla FA opuściłeś nieokreślony. ΨΨ=0Ψ=σ2IΨ

Należy jednak wspomnieć, że istnieje nieskończona liczba różnych możliwych (z pewnością ograniczona), ale dokładnie jedna, która minimalizuje rangę macierzy czynników. Nazwijmy to Standardowym (automatycznym) oszacowaniem dla jest diagonalna macierz oparta na SMC, więc to jako (a nawet niektóre oprogramowanie (wydaje się, że) nie próbują zoptymalizować dół od podczas gdy jest (ogólnie) wymagane (aby) zapobiegać przypadkom Heywooda / negatywności). Co więcej, nawet tak zoptymalizowanyΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2nie gwarantują minimalny stopień pozostałych kowariancji, co zazwyczaj mamy to nie równy: w ogólnym . Znalezienie to bardzo trudna gra i o ile wiem (ale to już nie jest tak „daleko”, jak powiedzmy 20 lat temu, kiedy byłem bardziej zaangażowany i bliższy książkom), to wciąż jest nierozwiązany problem. ΨstdΨopt
Ψopt


Odzwierciedla to idealną, matematyczną stronę problemu, a moje rozróżnienie między i może być w rzeczywistości niewielkie. Bardziej ogólne zastrzeżenie polega jednak na tym, że omawia całą maszynerię faktoryzacji z punktu widzenia tego, że badam tylko moją próbkę lub mam dane z całej populacji ; w modelu statystyki wnioskowania, w której wnioskuję na podstawie niedoskonałej próby na populacji, moja empiryczna kowariancja - a zatem także faktormatrix jest jedynie szacunkiem, jest tylko cieniem „prawdziwej” kowariancji- / factormatrix. Dlatego w takim systemie / modelu powinniśmy nawet wziąć pod uwagę, że nasze „błędy” nieidealneΨstdΨopt, a zatem może być fałszywie skorelowany. W rzeczywistości w takich modelach powinniśmy / pozostawilibyśmy za sobą idealistyczne założenie nieskorelowanego błędu, a zatem ściśle diagonalnej formy .Ψ


Cześć, nie jestem pewien, czy mogę w pełni zastosować się do twoich uwag tutaj. Czy rozumiem poprawnie, że przez masz na myśli taką diagonalną macierz z dodatnimi elementami, że ma najniższą możliwą pozycję (gdzie jest macierzą cov / corr)? Myślę, że dla ogólnego rozmiaru ta najniższa możliwa ranga nie jest dużo mniejsza niż (może lub coś takiego), więc znalezienie nie wydaje się bardzo interesujące. Opierałem swoją odpowiedź na założeniu, że FA próbuje znaleźć i (o wielkości dla danegoΨoptCΨoptCCn×nnn1ΨoptΨWn×kk), aby zminimalizować. CWWΨ
ameba

Różnica punktów widzenia może być oparta na kolejności etapów rozwiązania problemu w celu oszacowania dwóch parametrów, które również są od siebie zależne. W mojej uwadze zaczynam od tego, że istnieje dla którego pozostała pozycja, powiedzmy , z jest minimalna i , choć być może mamy na myśli pewną liczbę czynników mając na uwadze . Jeśli następnie do pozycji minres, dowolna liczba czynników odcięta od prawej strony usuwa tylko minimalną (częściową) kowariancję. ... r C = C - Ψ o p t | | C - W r W r | | = 0 k k < r W r r + 1 - kΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms

(...) Jeśli zamiast tego zaczniesz od , ma na ogół co najmniej jedną pozycję wyższą, a zatem liczba czynników s będzie mieć . Następnie znalezienie minimalnej możliwej ilości usuwalnego kowariancji przez obcięcie współczynników (nawet po rotacji według niektórych kryteriów, takich jak pc lub minres), będzie nieoptymalne. Zastrzeżenie : jest to wciąż hipoteza - trudno znaleźć dla kowariancji, których struktura nie jest sfabrykowana, a wszystkie pseudolosowe eksperymenty z własnymi sfabrykowanymi przykładami są mniej wiarygodne niż przypadki empiryczne. C s t d s > r s + 1 - k Ψ o p tΨstdCstds>rs+1kΨopt
Gottfried Helms

OK, rozumiem co mówisz. Chodzi mi o to, że dla większości rzeczywistych ranga będzie prawie taka sama jak , tj. . Jeśli ktoś po prostu obróci po tym, prawdopodobnie jest to prawie równoważne lub bardzo bliskie zrobieniu PCA na i wcale nie zawracając sobie głowy FA. C = C - Ψ o p t C r n k W r CCC=CΨoptCrnkWrC
ameba

Prawdziwe. Pomyślałem, że najlepiej wyjaśnić, gdzie trzeba znaleźć „idealny” przypadek, z którego ograniczamy się do praktycznie obliczalnych przybliżeń. <br> A teraz jeszcze bardziej na korzyść PCA ;-): Pozwalając na fałszywą korelację błędu (w drugim trybie aplikacji / statystyki wnioskowania) pozwala wynikowi zbliżyć się do tego typu, który rozpoczął się od ekstrakcji na PC ...
Gottfried Helms
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.