Oba modele - główny składnik i wspólny czynnik - są podobnymi prostymi liniowymi modelami regresji przewidującymi zmienne obserwowane przez zmienne utajone. Miejmy wyśrodkowane zmienne V1 V2 ... Vp i postanowiliśmy wyodrębnić 2 składniki / czynniki FI i FII . Następnie model jest układem równań:
V.1= a1 Ifaja+ a1 Ijafajaja+ E1
V.2)= a2 Ifaja+ a2 Ijafajaja+ E2)
. . .
V.p= …
gdzie współczynnik a jest obciążeniem, F jest współczynnikiem lub składową, a zmienna E jest resztkami regresji. Tutaj model FA różni się od modelu PCA tym , że FA nakłada wymóg: zmienne E1 E2 ... Ep (terminy błędów, które nie są skorelowane z Fs ) nie mogą się ze sobą korelować ( patrz zdjęcia ). Te zmienne błędu FA nazywają „unikalnymi czynnikami”; ich wariancje są znane („unikatowości”), ale ich wielkości literowe nie są. Dlatego oceny czynnikowe F są obliczane tylko jako dobre przybliżenia, nie są dokładne.
(Przedstawienie algebry macierzowej tego wspólnego modelu analizy czynnikowej znajduje się w przypisie )1
Podczas gdy w PCA zmienne błędu z przewidywania różnych zmiennych mogą dowolnie korelować: nic nie jest im narzucane. Reprezentują one „żużel”, dla którego wybraliśmy pominięte wymiary p-2 . Znamy wartości E, więc możemy obliczyć wyniki składowe F jako dokładne wartości.
To była różnica między modelem PCA a modelem FA.
Z powodu tej wyżej zarysowanej różnicy FA jest w stanie wyjaśnić korelacje par (kowariancje). PCA zasadniczo nie może tego zrobić (chyba że liczba wyodrębnionych składników = p ); może jedynie wyjaśnić wariancję wielowymiarową . Tak długo, jak długo termin „analiza czynnikowa” jest zdefiniowany w celu wyjaśnienia korelacji, PCA nie jest analizą czynnikową. Jeśli „Analiza czynnikowa” jest zdefiniowana szerzej jako metoda zapewniająca lub sugerująca ukryte „cechy”, które można interpretować, PCA jest widoczna jako specjalna i najprostsza forma analizy czynnikowej.2)
Czasami - w niektórych zestawach danych pod pewnymi warunkami - PCA pozostawia warunki typu E, które prawie nie są ze sobą powiązane. Następnie PCA może wyjaśnić korelacje i stać się jak FA. Nie jest to rzadkie w zestawach danych z wieloma zmiennymi. To spowodowało, że niektórzy obserwatorzy twierdzili, że wyniki PCA zbliżają się do wyników FA wraz ze wzrostem danych. Nie sądzę, że jest to reguła, ale może tak być. W każdym razie, biorąc pod uwagę różnice teoretyczne, zawsze dobrze jest świadomie wybrać metodę. FA jest bardziej realistycznym modelem, jeśli chcesz zredukować zmienne do utajonych, które zamierzasz uznać za prawdziwe ukryte cechy stojące za zmiennymi i powodujące ich korelację.
Ale jeśli masz inny cel - zmniejszenie wymiarów przy zachowaniu jak największej odległości między punktami chmury danych - PCA jest lepsze niż FA. (Jednak iteracyjna procedura wielowymiarowego skalowania (MDS) będzie jeszcze lepsza. PCA oznacza nieiteracyjny metryczny MDS.) Jeśli dalej nie będziesz przejmować się odległościami i jesteś zainteresowany jedynie zachowaniem jak największej ogólnej wariancji danych jak to możliwe, pod kilkoma wymiarami - PCA jest optymalnym wyborem.
V = F A ′ + E d i a g ( u ) V F A E u u 2 E d i a g ( u )1 Model danych analizy czynnikowej: , gdzie to analizowane dane (kolumny wyśrodkowane lub znormalizowane), to wspólne wartości współczynników (nieznane prawdziwe , a nie oceny czynnikowe) o wariancji jednostkowej, jest macierzą wspólnych ładunków czynnikowych (macierz wzorów), jest unikatowymi wartościami czynnikowymi (nieznane), jest wektorem unikalnych ładunków czynnikowych równych sq. root unikatowości ( ). Część można po prostu oznaczyć jako „ EV = F A′+ E dI g( u )V.n cases x p variables
fan x m
ZAp x m
min x p
up
u2)E dI g( u )„dla uproszczenia, tak jak w formułach otwierających odpowiedź.
Główne założenia modelu:
- E E F VfaZmienne i (odpowiednio wspólne i niepowtarzalne) mają zero średnich i wariancji jednostkowych;
zwykle przyjmuje się, że normalna jest wielowymiarowa normalna, ale w ogólnym przypadku nie musi być normalna wielowymiarowa normalna (jeśli obie są przyjmowane jako wielowymiarowa normalna, to też tak jest);mimifaV.
- F.miZmienne są nieskorelowane ze sobą i nie są skorelowane ze zmiennymifa
A A ( m ) Σ2) Z wspólnej analizy czynnika modelu że obciążenia z m czynników wspólnych ( m < p zmienne), oznaczany także , należy dokładnie odtworzyć obserwowane kowariancji (lub korelacji) pomiędzy zmiennymi . Tak więc jeśli czynniki są ortogonalne, podstawowe twierdzenie o czynnikach mówi, żeZAZA( m )Σ
Σ≈ Σ +dIag(U2)Σ^= A A′ i ,Σ ≈ Σ^+ d i a g ( u2))
gdzie jest matrycą odtworzonych kowariancji (lub korelacji) ze zwykłymi wariancjami („wspólnotami”) na jej przekątnej; a niepowtarzalne wariancje („unikalności”) - które są wariancjami minus wspólności - są wektorem . Rozbieżność poza przekątną ( ) Wynika z faktu, że czynniki są modelem teoretycznym generującym dane i jako takie są prostsze niż dane obserwowane, na których zostały zbudowane. Głównymi przyczynami rozbieżności między obserwowanymi a odtworzonymi kowariancjami (lub korelacjami) mogą być: (1) liczba czynników m nie jest statystycznie optymalna; (2) częściowe korelacje (są to U2≈Σ^u2≈p(p-1)/2
czynniki, które nie należą do wspólnych czynników) są wyraźne; (3) społeczności nie zostały dobrze ocenione, ich początkowe wartości były słabe; (4) relacje nie są liniowe, stosowanie modelu liniowego jest kwestionowane; (5) model „podtyp” wytworzony metodą ekstrakcji nie jest optymalny dla danych (zobacz różne metody ekstrakcji ). Innymi słowy, niektóre założenia dotyczące danych FA nie są w pełni spełnione.
Podobnie jak w przypadku zwykłego PCA , odtwarza kowariancje przez ładunki dokładnie wtedy, gdy m = p (wszystkie komponenty są używane) i zwykle nie robi tego, jeśli m < p (zachowało się tylko kilka 1. komponentów). Twierdzenie czynnikowe dla PCA to:
Σ=AA′(p)=AA′(m)+AA′(p−m) ,
więc zarówno i porzucone są mieszankami wspólnot i unikatowości i żadne z nich osobno nie może przywrócić kowariancji. Im bliżej m jest p , tym lepiej PCA przywraca z reguły kowariancje, ale małe m (co często jest naszym zainteresowaniem) nie pomaga. Różni się to od FA, który ma na celu przywrócenie kowariancji przy dość niewielkiej optymalnej liczbie czynników. Jeśli zbliża się do przekątnej, PCA staje się jak FA, zA(m)A(p−m)AA′(p−m)A(m)przywrócenie wszystkich kowariancji. Zdarza się to czasami z PCA, jak już wspomniałem. Jednak PCA nie ma zdolności algorytmicznej do wymuszenia takiej diagonalizacji. Robią to algorytmy FA.
FA, a nie PCA, jest modelem generującym dane: zakłada kilka „prawdziwych” wspólnych czynników (zwykle nieznanej liczby, więc wypróbowuje się m w zakresie), które generują „prawdziwe” wartości dla kowariancji. Zaobserwowane kowariancje to „prawdziwe” + mały przypadkowy szum. (Jest to spowodowane wykonywane diagonalizacja że liściach jedynym konserwator wszystkich kowariancji, że powyższe hałas może być mały i losowe). Próba dopasować inne czynniki, nie optymalne wynosi przeuczenia próby, nie koniecznie skuteczna próba przeregulowania.A(m)
Zarówno FA, jak i PCA dążą do maksymalizacji , ale dla PCA jest to jedyny cel; w przypadku FA jest to wspólny cel, a drugą jest przekątna wyjątkowości. Ten ślad jest sumą wartości własnych w PCA. Niektóre metody ekstrakcji w FA dodają więcej wspólnych celów kosztem maksymalizacji śladu, więc nie ma to zasadniczego znaczenia.trace(A′A(m))
Podsumowując wyjaśnione różnice między tymi dwiema metodami. FA dąży ( bezpośrednio lub pośrednio ) do minimalizacji różnic między poszczególnymi odpowiadającymi nie-przekątnymi elementami i . Udany model FA to taki, który pozostawia błędy dla kowariancji małych i losowych (normalne lub jednolite około 0, brak wartości odstających / ogonów tłuszczu). PCA maksymalizuje tylko który jest równy (iA A ′ t r a c e ( A A ′ ) t r a c e ( A ′ A ) A ′ AΣAA′trace(AA′)trace(A′A)A′Ajest równa macierzy kowariancji głównych składników, która jest macierzą diagonalną). Zatem PCA nie jest „zajęty” wszystkimi poszczególnymi kowariancjami: po prostu nie może, będąc jedynie formą ortogonalnej rotacji danych.
Dzięki maksymalizacji ślad - wariancja wytłumaczyć m komponentów - PCA jest rozliczania kowariancji, ponieważ kowariancji jest wspólna wariancji. W tym sensie PCA jest „przybliżeniem niskiego rzędu” całej macierzy kowariancji zmiennych. A patrząc z punktu widzenia obserwacji, to przybliżenie jest przybliżeniem macierzy obserwacji euklidesowych i odległości (dlatego PCA jest metrycznym MDS zwanym „główną analizą współrzędnych). Ten fakt nie powinien przesłonić nas przed faktem, że PCA nie modeluje macierz kowariancji (każda kowariancja) generowana przez kilka żywych ukrytych cech, które można sobie wyobrazić jako transcendentne w stosunku do naszych zmiennych; przybliżenie PCA pozostaje immanentne, nawet jeśli jest dobre: jest to uproszczenie danych.
Jeśli chcesz zobaczyć obliczenia krok po kroku wykonane w PCA i FA, skomentowane i porównane, zajrzyj tutaj .