PCA i eksploracyjna analiza czynnikowa w tym samym zbiorze danych: różnice i podobieństwa; model czynnikowy vs PCA

Chciałbym wiedzieć, czy logiczne jest przeprowadzanie analizy głównych składników (PCA) i eksploracyjnej analizy czynnikowej (EFA) na tym samym zbiorze danych. Słyszałem, że specjaliści wyraźnie zalecają:

Zrozum, jaki jest cel analizy i wybierz PCA lub EFA do analizy danych;
Po przeprowadzeniu jednej analizy nie ma potrzeby wykonywania drugiej analizy.

Rozumiem różnice motywacyjne między nimi, ale zastanawiałem się, czy jest coś złego w interpretacji wyników uzyskanych jednocześnie przez PCA i EFA?

pca factor-analysis

— użytkownik42538
źródło

Skąd ta niepewność? Jeśli rozumiesz różnice motywacyjne między nimi, powinieneś znaleźć się na jednej z dwóch pozycji: Uznaj je za uzupełniające się i bądź gotów je zbadać. Uważaj jedno o wiele bardziej przekonujące za to, co chcesz zrobić. Wygląda na to, że chcesz powiedzieć, że jest słuszna rzecz, ale PCA z lub przeciw FA jest tak długotrwałym obszarem kontrowersji, że jeśli dwóch ekspertów się zgadza, zwykle tylko oni nie zgadzają się z trzecim ekspertem, ale dla różnych powody.

— Nick Cox

Co studiujesz? Niektóre nauki społeczne, takie jak szczęście czy obiektywne dane, takie jak stopy procentowe?

— Aksakal

Oba modele - główny składnik i wspólny czynnik - są podobnymi prostymi liniowymi modelami regresji przewidującymi zmienne obserwowane przez zmienne utajone. Miejmy wyśrodkowane zmienne V1 V2 ... Vp i postanowiliśmy wyodrębnić 2 składniki / czynniki FI i FII . Następnie model jest układem równań:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

gdzie współczynnik a jest obciążeniem, F jest współczynnikiem lub składową, a zmienna E jest resztkami regresji. Tutaj model FA różni się od modelu PCA tym , że FA nakłada wymóg: zmienne E1 E2 ... Ep (terminy błędów, które nie są skorelowane z Fs ) nie mogą się ze sobą korelować ( patrz zdjęcia ). Te zmienne błędu FA nazywają „unikalnymi czynnikami”; ich wariancje są znane („unikatowości”), ale ich wielkości literowe nie są. Dlatego oceny czynnikowe F są obliczane tylko jako dobre przybliżenia, nie są dokładne.

(Przedstawienie algebry macierzowej tego wspólnego modelu analizy czynnikowej znajduje się w przypisie ) $^1$

Podczas gdy w PCA zmienne błędu z przewidywania różnych zmiennych mogą dowolnie korelować: nic nie jest im narzucane. Reprezentują one „żużel”, dla którego wybraliśmy pominięte wymiary p-2 . Znamy wartości E, więc możemy obliczyć wyniki składowe F jako dokładne wartości.

To była różnica między modelem PCA a modelem FA.

Z powodu tej wyżej zarysowanej różnicy FA jest w stanie wyjaśnić korelacje par (kowariancje). PCA zasadniczo nie może tego zrobić (chyba że liczba wyodrębnionych składników = p ); może jedynie wyjaśnić wariancję wielowymiarową . Tak długo, jak długo termin „analiza czynnikowa” jest zdefiniowany w celu wyjaśnienia korelacji, PCA nie jest analizą czynnikową. Jeśli „Analiza czynnikowa” jest zdefiniowana szerzej jako metoda zapewniająca lub sugerująca ukryte „cechy”, które można interpretować, PCA jest widoczna jako specjalna i najprostsza forma analizy czynnikowej. $^2$

Czasami - w niektórych zestawach danych pod pewnymi warunkami - PCA pozostawia warunki typu E, które prawie nie są ze sobą powiązane. Następnie PCA może wyjaśnić korelacje i stać się jak FA. Nie jest to rzadkie w zestawach danych z wieloma zmiennymi. To spowodowało, że niektórzy obserwatorzy twierdzili, że wyniki PCA zbliżają się do wyników FA wraz ze wzrostem danych. Nie sądzę, że jest to reguła, ale może tak być. W każdym razie, biorąc pod uwagę różnice teoretyczne, zawsze dobrze jest świadomie wybrać metodę. FA jest bardziej realistycznym modelem, jeśli chcesz zredukować zmienne do utajonych, które zamierzasz uznać za prawdziwe ukryte cechy stojące za zmiennymi i powodujące ich korelację.

Ale jeśli masz inny cel - zmniejszenie wymiarów przy zachowaniu jak największej odległości między punktami chmury danych - PCA jest lepsze niż FA. (Jednak iteracyjna procedura wielowymiarowego skalowania (MDS) będzie jeszcze lepsza. PCA oznacza nieiteracyjny metryczny MDS.) Jeśli dalej nie będziesz przejmować się odległościami i jesteś zainteresowany jedynie zachowaniem jak największej ogólnej wariancji danych jak to możliwe, pod kilkoma wymiarami - PCA jest optymalnym wyborem.

$^1$ Model danych analizy czynnikowej: , gdzie to analizowane dane (kolumny wyśrodkowane lub znormalizowane), to wspólne wartości współczynników (nieznane prawdziwe , a nie oceny czynnikowe) o wariancji jednostkowej, jest macierzą wspólnych ładunków czynnikowych (macierz wzorów), jest unikatowymi wartościami czynnikowymi (nieznane), jest wektorem unikalnych ładunków czynnikowych równych sq. root unikatowości ( ). Część można po prostu oznaczyć jako „ E $\mathbf {V=FA'+E}diag \bf(u)$ $\bf V$ n cases x p variables $\bf F$ n x m $\bf A$ p x m $\bf E$ n x p $\bf u$ p $\bf u^2$ $\mathbf E diag \bf(u)$ „dla uproszczenia, tak jak w formułach otwierających odpowiedź.

Główne założenia modelu:

$\bf F$ Zmienne i (odpowiednio wspólne i niepowtarzalne) mają zero średnich i wariancji jednostkowych; zwykle przyjmuje się, że normalna jest wielowymiarowa normalna, ale w ogólnym przypadku nie musi być normalna wielowymiarowa normalna (jeśli obie są przyjmowane jako wielowymiarowa normalna, to też tak jest); $\bf E$ $\bf E$ $\bf F$ $\bf V$
$\bf E$ Zmienne są nieskorelowane ze sobą i nie są skorelowane ze zmiennymi $\bf F$

$^2$ Z wspólnej analizy czynnika modelu że obciążenia z m czynników wspólnych ( m < p zmienne), oznaczany także , należy dokładnie odtworzyć obserwowane kowariancji (lub korelacji) pomiędzy zmiennymi . Tak więc jeśli czynniki są ortogonalne, podstawowe twierdzenie o czynnikach mówi, że $\bf A$ $\bf A_{(m)}$ $\bf \Sigma$

$\bf \hat{\Sigma} = AA'$ i , $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$

gdzie jest matrycą odtworzonych kowariancji (lub korelacji) ze zwykłymi wariancjami („wspólnotami”) na jej przekątnej; a niepowtarzalne wariancje („unikalności”) - które są wariancjami minus wspólności - są wektorem . Rozbieżność poza przekątną ( ) Wynika z faktu, że czynniki są modelem teoretycznym generującym dane i jako takie są prostsze niż dane obserwowane, na których zostały zbudowane. Głównymi przyczynami rozbieżności między obserwowanymi a odtworzonymi kowariancjami (lub korelacjami) mogą być: (1) liczba czynników m nie jest statystycznie optymalna; (2) częściowe korelacje (są to $\bf \hat{\Sigma}$ $\bf u^2$ $\approx$ p(p-1)/2czynniki, które nie należą do wspólnych czynników) są wyraźne; (3) społeczności nie zostały dobrze ocenione, ich początkowe wartości były słabe; (4) relacje nie są liniowe, stosowanie modelu liniowego jest kwestionowane; (5) model „podtyp” wytworzony metodą ekstrakcji nie jest optymalny dla danych (zobacz różne metody ekstrakcji ). Innymi słowy, niektóre założenia dotyczące danych FA nie są w pełni spełnione.

Podobnie jak w przypadku zwykłego PCA , odtwarza kowariancje przez ładunki dokładnie wtedy, gdy m = p (wszystkie komponenty są używane) i zwykle nie robi tego, jeśli m < p (zachowało się tylko kilka 1. komponentów). Twierdzenie czynnikowe dla PCA to:

$\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$ ,

więc zarówno i porzucone są mieszankami wspólnot i unikatowości i żadne z nich osobno nie może przywrócić kowariancji. Im bliżej m jest p , tym lepiej PCA przywraca z reguły kowariancje, ale małe m (co często jest naszym zainteresowaniem) nie pomaga. Różni się to od FA, który ma na celu przywrócenie kowariancji przy dość niewielkiej optymalnej liczbie czynników. Jeśli zbliża się do przekątnej, PCA staje się jak FA, z $\bf A_{(m)}$ $\bf A_{(p-m)}$ $\bf AA'_{(p-m)}$ $\bf A_{(m)}$ przywrócenie wszystkich kowariancji. Zdarza się to czasami z PCA, jak już wspomniałem. Jednak PCA nie ma zdolności algorytmicznej do wymuszenia takiej diagonalizacji. Robią to algorytmy FA.

FA, a nie PCA, jest modelem generującym dane: zakłada kilka „prawdziwych” wspólnych czynników (zwykle nieznanej liczby, więc wypróbowuje się m w zakresie), które generują „prawdziwe” wartości dla kowariancji. Zaobserwowane kowariancje to „prawdziwe” + mały przypadkowy szum. (Jest to spowodowane wykonywane diagonalizacja że liściach jedynym konserwator wszystkich kowariancji, że powyższe hałas może być mały i losowe). Próba dopasować inne czynniki, nie optymalne wynosi przeuczenia próby, nie koniecznie skuteczna próba przeregulowania. $\bf A_{(m)}$

Zarówno FA, jak i PCA dążą do maksymalizacji , ale dla PCA jest to jedyny cel; w przypadku FA jest to wspólny cel, a drugą jest przekątna wyjątkowości. Ten ślad jest sumą wartości własnych w PCA. Niektóre metody ekstrakcji w FA dodają więcej wspólnych celów kosztem maksymalizacji śladu, więc nie ma to zasadniczego znaczenia. $trace(\bf A'A_{(m)})$

Podsumowując wyjaśnione różnice między tymi dwiema metodami. FA dąży ( bezpośrednio lub pośrednio ) do minimalizacji różnic między poszczególnymi odpowiadającymi nie-przekątnymi elementami i . Udany model FA to taki, który pozostawia błędy dla kowariancji małych i losowych (normalne lub jednolite około 0, brak wartości odstających / ogonów tłuszczu). PCA maksymalizuje tylko który jest równy (i $\bf \Sigma$ $\bf AA'$ $trace(\bf AA')$ $trace(\bf A'A)$ $\bf A'A$ jest równa macierzy kowariancji głównych składników, która jest macierzą diagonalną). Zatem PCA nie jest „zajęty” wszystkimi poszczególnymi kowariancjami: po prostu nie może, będąc jedynie formą ortogonalnej rotacji danych.

Dzięki maksymalizacji ślad - wariancja wytłumaczyć m komponentów - PCA jest rozliczania kowariancji, ponieważ kowariancji jest wspólna wariancji. W tym sensie PCA jest „przybliżeniem niskiego rzędu” całej macierzy kowariancji zmiennych. A patrząc z punktu widzenia obserwacji, to przybliżenie jest przybliżeniem macierzy obserwacji euklidesowych i odległości (dlatego PCA jest metrycznym MDS zwanym „główną analizą współrzędnych). Ten fakt nie powinien przesłonić nas przed faktem, że PCA nie modeluje macierz kowariancji (każda kowariancja) generowana przez kilka żywych ukrytych cech, które można sobie wyobrazić jako transcendentne w stosunku do naszych zmiennych; przybliżenie PCA pozostaje immanentne, nawet jeśli jest dobre: jest to uproszczenie danych.

Jeśli chcesz zobaczyć obliczenia krok po kroku wykonane w PCA i FA, skomentowane i porównane, zajrzyj tutaj .

— ttnphns
źródło

To doskonała odpowiedź.

— Subhash C. Davar

+1 za przyniesienie mi nowej perspektywy oglądania PCA. Teraz, jak rozumiem, zarówno PCA, jak i FA mogą wyjaśnić wariancję obserwowanych zmiennych, a ponieważ FA nakazuje, aby warunki błędu dla każdej zmiennej nie były skorelowane, podczas gdy PCA nie dokonuje takiego dyktanda, więc FA może uchwycić całą kowariancję w obserwowane zmienne, ale PCA tego nie robi, ponieważ w PCA terminy błędu mogą również zawierać pewną kowariancję obserwowanych zmiennych, chyba że użyjemy całego komputera do reprezentowania obserwowanych zmiennych, prawda?

— awokado

Dokładnie. PCA może nie tylko nie docenić wartości kowariancji (jak może się wydawać), ale może również ją przecenić. W skrócie, a1 * a2 <> Cov12, co jest normalnym zachowaniem w przypadku PCA. Dla FA byłby to znak rozwiązania nieoptymalnego (np. Zła liczba wyekstrahowanych czynników).

— ttnphns

@ttnphns: +1, ale jestem całkiem zdezorientowany. Dość dobrze znam PCA, ale niewiele wiem o FA. Rozumiałem, że w PCA macierz kowariancji jest rozkładana jako aw FA jako z przekątną , tzn. PCA zakłada izowotropowy kowariancję hałasu i FA --- jeden po przekątnej. Tak napisano w podręczniku Bishopa i we wszystkich metodach leczenia probabilistycznego PCA (PPCA), na które natknąłem się. Co najważniejsze, w obu przypadkach kowariancja hałasu jest diagonalna, tzn. Warunki hałasu nie korelują. Jak mogę to pogodzić z tym, co tu napisałeś?

Σ = W W^{⊤} + σ^{2} I

$\Sigma = WW^\top+\sigma^2 I$

Σ = W W^{⊤} + Ψ

$\Sigma = WW^\top+\Psi$

Ψ

$\Psi$

— ameba mówi Przywróć Monikę

@amoeba, nie-przekątne elementy są teoretycznie przywracane w FA przez ( = ładunki), ale nie są przez nie przywracane teoretycznie przez zwykły PCA (a więc nie jest przekątna, ale jest kwadratowa, w PCA). Przepraszam, nie studiowałem PPCA (czy można pobrać książkę Bishopa?). Co to jest w Twojej notacji? I proszę zdefiniować „izotropowy”.

Σ

$\Sigma$

W W^{'}

$WW'$

W

$W$

Ψ

$\Psi$

σ^{2}

$\sigma^2$

— ttnphns

Podałem swoje własne podobieństwo i różnice między PCA i FA w następującym wątku: Czy jest jakiś dobry powód, aby używać PCA zamiast EFA? Czy PCA może również zastąpić analizę czynnikową?

Pamiętaj, że moje konto różni się nieco od konta @ttnphns (jak przedstawiono w odpowiedzi powyżej). Moim głównym twierdzeniem jest to, że PCA i FA nie są tak różne, jak się często myśli. Rzeczywiście mogą się znacznie różnić, gdy liczba zmiennych jest bardzo niska, ale zwykle dają całkiem podobne wyniki, gdy liczba zmiennych przekroczy kilkanaście. Zobacz moją [długą!] Odpowiedź w powiązanym wątku, aby uzyskać szczegóły matematyczne i symulacje Monte Carlo. Bardziej zwięzłą wersję mojego argumentu można znaleźć tutaj: w jakich warunkach PCA i FA dają podobne wyniki?

Tutaj chciałbym wyraźnie odpowiedzieć na twoje główne pytanie: Czy jest coś złego w wykonywaniu PCA i FA na tym samym zbiorze danych? Moja odpowiedź na to pytanie brzmi: Nie.

Podczas uruchamiania PCA lub FA nie testujesz żadnej hipotezy. Obie są technikami eksploracyjnymi , które służą lepszemu zrozumieniu danych. Dlaczego więc nie zbadać danych za pomocą dwóch różnych narzędzi? Zróbmy to!

Przykład: zestaw danych dotyczących wina

Jako ilustrację posłużyłem się dość znanym zestawem danych dotyczących wina z win z trzech różnych winogron opisanych przez zmienne . Zobacz moją odpowiedź tutaj: Jakie są różnice między analizą czynnikową a analizą głównych składników? dla szczegółów trybu, ale w skrócie - przeprowadziłem analizę PCA i FA i dla obu z nich utworzyłem dwupłaty. Łatwo zauważyć, że różnica jest minimalna: $n=178$ $p=13$

Analiza PCA i FA zestawu danych dotyczących wina

— ameba mówi Przywróć Monikę
źródło

If the results turn out to be very similar, then you can decide to stick with only one approach. Pewnie. Jak bardzo podobne? If the results turn out to be very different, then maybe it tells you something about your dataTo doskonale mistyczne i ezoteryczne.

— ttnphns

Hmmm, przepraszam, jeśli to było niejasne. Miałem na myśli to, że jeśli istnieje wiele zmiennych, a PCA daje ładunki bardzo różne od FA, to nam coś mówi. Być może wspólnoty są bardzo niskie (tzn. Macierz korelacji jest zdominowana przez przekątną, a elementy poza przekątną są małe). To może być interesująca obserwacja. Gdybym z jakiegoś powodu przeanalizował ten sam zestaw danych z PCA i FA i uzyskał bardzo różne wyniki, zbadałbym go dalej. Czy ma sens?

— ameba mówi Przywróć Monikę

@ttnphns: Dokonałem aktualizacji z opracowanym przykładem dla jednego konkretnego zestawu danych. Mam nadzieję, że ci się spodoba! Zobacz także moją połączoną (nową) odpowiedź. Po raz pierwszy zrobiłem biplot FA, a nasze wcześniejsze rozmowy bardzo mi w tym pomogły.

— ameba mówi Przywróć Monikę