Czy istnieje analiza czynnikowa lub PCA dla danych porządkowych lub binarnych?


28

Ukończyłem analizę głównych składników (PCA), eksploracyjną analizę czynnikową (EFA) i potwierdzającą analizę czynnikową (CFA), traktując dane za pomocą skali Likerta (odpowiedzi 5-stopniowe: brak, trochę, trochę ...) jako ciągłe zmienna. Następnie, używając Lavaana, powtórzyłem CFA, definiując zmienne jako kategoryczne.

Chciałbym wiedzieć, jakie typy analiz byłyby odpowiednie i byłyby równoważne PCA i EFA, gdy dane mają charakter porządkowy . A kiedy binarny .

Byłbym także wdzięczny za sugestie dotyczące konkretnych pakietów lub oprogramowania, które można łatwo wdrożyć do takich analiz.

Odpowiedzi:


38

Tradycyjna (liniowa) analiza PCA i analiza czynnikowa wymaga danych na poziomie skali (przedział lub współczynnik). Często przyjmuje się, że dane ratingowe typu Likerta są na poziomie skali, ponieważ takie dane są łatwiejsze do analizy. A decyzja jest czasem uzasadniona statystycznie, szczególnie gdy liczba uporządkowanych kategorii jest większa niż 5 lub 6. (Chociaż czysto logicznie kwestia typu danych i liczby poziomów skali są różne).

A jeśli wolisz traktować politomiczną skalę Likerta jako porządkową? Czy masz dychotomiczne dane? Czy można dla nich przeprowadzić eksploracyjną analizę czynnikową lub PCA?

Istnieją obecnie trzy główne podejścia do wykonywania FA (w tym PCA jako szczególnego przypadku) na kategorycznych zmiennych porządkowych lub binarnych (przeczytaj także to konto o przypadku danych binarnych i to, co można zrobić za pomocą skali porządkowej).

  1. Optymalne podejście do skalowania (rodzina aplikacji ). Nazywany także kategorialnym PCA (CatPCA) lub nieliniowym FA. W CatPCA zmienne porządkowe są monotonicznie przekształcane („kwantyfikowane”) w ich „leżące u podstaw” wersje przedziałów w celu maksymalizacji wariancji wyjaśnionej wybraną liczbą głównych składników wyodrębnionych z tych danych przedziałów. Co sprawia, że ​​metoda ta jest otwarta na cele (a nie teorię) i ważna jest wcześniejsza decyzja o liczbie głównych składników. Jeśli zamiast PCA potrzebna jest prawda FA, zwykłe FA liniowe można naturalnie wykonać na tych transformowanych zmiennych wyjściowych z CatPCA. W przypadku zmiennych binarnych CatPCA (niestety?) Zachowuje się jak zwykły PCA, to znaczy tak, jakby były zmiennymi ciągłymi. CatPCA akceptuje również zmienne nominalne i dowolne mieszanki typów zmiennych (ładne).

  2. Wnioskowane podejście oparte na zmiennych . Znany również jako PCA / FA wykonywany na korelacjach tetrachorycznych (dla danych binarnych) lub polichorycznych (dla danych porządkowych). Zakłada się rozkład normalny dla podstawowej (następnie binowanej) zmiennej ciągłej dla każdej zmiennej manifestu. Następnie stosuje się klasyczny FA do analizy wyżej wymienionych korelacji. Podejście to pozwala łatwo łączyć dane przedziałowe, porządkowe i binarne. Jedną wadą tego podejścia jest to, że - przy wnioskowaniu o korelacjach - nie ma wskazówek co do wielowymiarowego rozkładu zmiennych podstawowych, - może „wyobrazić sobie” co najwyżej dwuwymiarowe rozkłady, a zatem nie opiera się na pełnych informacjach.

  3. Podejście teorii odpowiedzi na pytanie (IRT). Czasami nazywany również logistycznym FA lub analizą ukrytych cech . Stosowany jest model bardzo zbliżony do binarnego logit (dla danych binarnych) lub proporcjonalnego logarytmu szans (dla danych porządkowych). Algorytm nie jest związany z dekompozycją macierzy korelacji, więc jest nieco oddalony od tradycyjnego FA, a mimo to jest bona fide kategorycznym FA. „Parametry dyskryminacji” ściśle odpowiadają ładunkom FA, ale „trudności” zastępują pojęcie „wyjątkowości” FA. Pewność dopasowania IRT szybko maleje wraz ze wzrostem liczby czynników, co stanowi problematyczną stronę tego podejścia. IRT jest rozszerzalny na swój sposób, aby uwzględnić zmienne interwały + zmienne binarne + porządkowe i ewentualnie nominalne.

Oceny czynnikowe w podejściach (2) i (3) są trudniejsze do oszacowania niż oceny czynnikowe w klasycznym FA lub podejściu (1). Istnieje jednak kilka metod (oczekiwane lub maksymalne metody aposteriori, metoda największego prawdopodobieństwa itp.).

Założenia modelu analizy czynnikowej są zasadniczo takie same w trzech podejściach, jak w tradycyjnym FA. Podejście (1) jest dostępne w R, SPSS, SAS (moim zdaniem). Podejścia (2) i (3) są implementowane głównie w specjalistycznych pakietach zmiennych ukrytych - Mplus, LISREL, EQS.

  1. Podejście wielomianowe. To nie zostało jeszcze w pełni opracowane. Główne składniki można modelować jako wielomianowe kombinacje zmiennych ( użycie wielomianów jest popularnym sposobem modelowania efektów nieliniowych regresorów porządkowych.). Również obserwowane kategorie można z kolei modelować jako dyskretne przejawy wielomianowych kombinacji czynników utajonych.

  2. Istnieje kwitnąca dziedzina nieliniowych technik redukcji wymiarowości; niektóre z nich można zastosować lub zaadaptować do pracy z danymi kategorialnymi (szczególnie binarnymi lub po binaryzacji w wysokowymiarowy rzadki zestaw danych).

  3. Wykonywanie klasycznych (liniowych) FA / PCA na korelacjach rang lub innych powiązaniach odpowiednich dla danych kategorycznych (Spearman / Kendall / Somer's itp.). W przypadku danych porządkowych jest to podejście czysto heurystyczne, pozbawione podstaw teoretycznych i w ogóle nie zalecane. W przypadku danych binarnych korelacje tau-b Spearmana rho i Kendalla oraz asocjacja Phi są równe korelacji Pearsona r, dlatego używanie ich jest niczym innym jak robieniem zwykłej liniowej FA / PCA na danych binarnych (niektóre z nich tutaj ). Możliwe jest także (choć nie bezdyskusyjnie) przeprowadzenie analizy na przeskalowanym jego aktualnym natężeniu.r

Spójrz także na to , to , to , to , to , to , to , to .


3
Fenomenalna odpowiedź. Jedyną rzeczą do dodania jest to, że myślę, że można użyć pakietu psych w R do implementacji podejść w (2) (patrz opcja „cor” dla funkcji fa) i (3) (patrz funkcje irt.fa i irt.poly ) w różnym stopniu, a pakiet LTM można również wykorzystać do dopasowania wielu modeli IRT.
jsakaluk

1
Mogą się różnić. Kilkukrotnie tworzyłem / walidowałem inwentaryzację przez „nieliniowy FA” (CatPCA-wtedy-EFA) i znalazłem wyniki lepsze niż ze zwykłego (liniowego) EFA. Procedura, którą zastosowałem była podobna do zwykłej FA, z tą różnicą, że dla każdej analizy - każdego zestawu elementów, które próbuję i każdej liczby czynników, które wydobywam - zrobiłem CatPCA, a następnie (na zmiennych kwantyfikowanych) -EFA pas de deux .
ttnphns

@ jsakaluk, Dziękuję bardzo za informacje. (Nie jestem użytkownikiem R, więc słabo znam jego fenomenalną pojemność).
ttnphns

Dziękuję za tak dokładne odpowiedzi. @ttnphns Większość dnia spędziłem próbując wdrożyć CATPCA w SPSS 23. Udało mi się znaleźć dwa samouczki (Linting i Kooij (2012) oraz unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) nie udało mi się odpowiedzieć na kilka własnych pytań. Czy możesz zasugerować dobry rynek zbytu dla niektórych pytań technicznych? Jeszcze raz dziękuję.
user116948

1
@ user116948, Jeśli masz problemy ze zrozumieniem, jak z nim pracować w SPSS: Po pierwsze, znajdź i przeczytaj studium przypadku CATPCA w podmenu SPSS Case Studies w menu Pomoc. Po drugie, przejrzyj wszystkie pytania dotyczące CATPCA zadane już na tej stronie. Po trzecie: jeśli nadal masz pytania - zadaj je jako nowe pytanie na stronie. Nie martw się: jeśli jest „zbyt techniczny”, może zostać przeniesiony do StackOveflow. Dalej: wybierz społeczność SPSS, aby zadać tam swoje pytanie (SPSSXL jest najlepszy). Twoje zdrowie.
ttnphns
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.