Jestem absolwentem informatyki. Przeprowadziłem eksploracyjną analizę czynników dla projektu badawczego. Moi koledzy (którzy prowadzą projekt) używają SPSS, podczas gdy ja wolę używać R. To nie miało znaczenia, dopóki nie odkryliśmy dużej rozbieżności między dwoma pakietami statystycznymi.
Używamy faktoringu osi głównej jako metody ekstrakcji (pamiętaj, że jestem świadomy różnicy między PCA a analizą czynnikową i że nie używamy PCA , przynajmniej nie celowo). Z tego co czytałem, to powinien odpowiadać „osi głównej” metody w badania i albo „główną oś factoring” lub „nieważone najmniejszych kwadratów” w SPSS, zgodnie z dokumentacją R . Używamy metody rotacji skośnej (konkretnie promaksy ), ponieważ oczekujemy skorelowanych czynników i interpretujemy macierz wzorców .
Uruchomienie dwóch procedur w R i SPSS, istnieją duże różnice. Matryca wzorów daje różne obciążenia. Chociaż daje to mniej więcej ten sam współczynnik dla zależności zmiennych, istnieje nawet 0,15 różnicy między odpowiadającymi ładunkami, co wydaje się więcej niż można by oczekiwać po innej implementacji metody ekstrakcji i rotacji promaksy. Nie jest to jednak najbardziej zaskakująca różnica.
Skumulowana wariancja wyjaśniona przez czynniki wynosi około 40% w wynikach SPSS i 31% w wynikach R. To ogromna różnica, która sprawiła, że moi koledzy chcieli używać SPSS zamiast R. Nie mam z tym problemu, ale tak duża różnica sprawia, że myślę, że możemy interpretować coś niepoprawnie, co jest problemem.
Jeszcze bardziej zabłocąc wody, SPSS zgłasza różne rodzaje wyjaśnionej wariancji, gdy przeprowadzamy faktoring z nieważoną metodą najmniejszych kwadratów. Proporcja wyjaśnionej wariancji według początkowych wartości własnych wynosi 40%, podczas gdy proporcja wyjaśnionej wariancji z sum ekstrakcyjnych obciążeń kwadratowych (SSL) wynosi 33%. To prowadzi mnie do myślenia, że Początkowe Wartości Własne nie są odpowiednią liczbą do oglądania (podejrzewam, że jest to wariancja wyjaśniona przed rotacją, chociaż ta tak duża jest poza mną). Jeszcze bardziej mylące, SPSS pokazuje również Rotation SSL, ale nie oblicza procentu wyjaśnionej wariancji (SPSS mówi mi, że posiadanie skorelowanych czynników oznacza, że nie mogę dodać SSL, aby znaleźć całkowitą wariancję, co ma sens z matematyką, którą widziałem). Zgłoszone SSL z R nie pasują do żadnego z nich, a R mówi mi, że opisuje 31% całkowitej wariancji. SSL R najlepiej pasują do SSL rotacji. Wartości własne R z oryginalnej macierzy korelacji są zgodne z początkowymi wartościami własnymi SPSS.
Pamiętaj też, że bawiłem się różnymi metodami i że ULS i PAF SPSS wydają się najbardziej pasować do metody PA R.
Moje konkretne pytania:
- Jakiej różnicy należy się spodziewać między R i SPSS z implementacjami analizy czynnikowej?
- Które z sum obciążeń kwadratowych z SPSS powinienem interpretować, początkowe wartości własne, ekstrakcję lub rotację?
- Czy są jakieś inne problemy, które mogłem przeoczyć?
Moje połączenia do SPSS i R są następujące:
SPSS:
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
R:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)