Tworzenie jednego indeksu z kilku głównych składników lub czynników zachowanych z PCA / FA

Korzystam z analizy głównych składników (PCA), aby utworzyć indeks wymagany do moich badań. Moje pytanie brzmi: jak powinienem utworzyć pojedynczy indeks, używając zachowanych głównych składników obliczonych za pomocą PCA.

Na przykład zdecydowałem się zachować 3 główne składniki po użyciu PCA i obliczyłem wyniki dla tych 3 głównych składników. Jakie są odpowiednie sposoby utworzenia dla każdego respondenta jednego indeksu z tych 3 wyników?

Czy należy dodać 3 obliczone wyniki, aby uzyskać wartość złożoną?
Czy też uśrednić 3 wyniki, aby mieć taką wartość?
A może powinienem zachować tylko pierwszy główny składnik (najsilniejszy) i wykorzystać jego wynik jako indeks?

Alternatywnie można użyć analizy czynnikowej (FA), ale pozostaje to samo pytanie: jak stworzyć pojedynczy indeks oparty na kilku wynikach czynnikowych?

— użytkownik179313
źródło

Komputery PC są z definicji nieskorelowane. Dlatego jako zmienne nie kopiują się nawzajem w żaden sposób. Oznacza to, że nie ma powodu, aby tworzyć z nich jedną wartość (zmienną złożoną). Czasami ich zwielokrotnienie może być interesujące, ale nie sumowanie ani uśrednianie.

— ttnphns

Zgadzam się z @ttnphns: pierwsze dwie opcje nie mają większego sensu, a cały wysiłek „połączenia” trzech komputerów w jeden indeks wydaje się mylny. Weź 1. komputer jako indeks lub zastosuj zupełnie inne podejście.

— ameba mówi Przywróć Monikę

@ttnphns nieskorelowane, nie niezależne. Nadmiarowe informacje mogą być powtarzane na komputerach PC, ale nie liniowo.

— przypuszcza

@amoeba Dziękujemy za przypomnienie. Opracowałem wersje tagu i jego fragmentu na stronie stats.stackexchange.com/tags/valuation/info .

— whuber

@ttnphns Czy rozważysz opublikowanie tutaj odpowiedzi na podstawie powyższego komentarza? Właśnie rozpocząłem nagrodę tutaj, ponieważ wciąż pojawiają się odmiany tego pytania i nie możemy ich zamknąć jako duplikatów, ponieważ nigdzie nie ma zadowalającej odpowiedzi.

— ameba mówi Przywróć Monikę

Odpowiedzi:

Ta odpowiedź jest celowo niematematyczna i jest skierowana do niestatystycznego psychologa (powiedzmy), który pyta, czy może zsumować / uśrednić wyniki czynników różnych czynników, aby uzyskać wynik „wskaźnika złożonego” dla każdego respondenta.

Sumowanie lub uśrednianie wyników niektórych zmiennych zakłada, że zmienne należą do tego samego wymiaru i są miarami zamiennymi. (W pytaniu „zmienne” są wynikami składowymi lub czynnikami , co niczego nie zmienia, ponieważ są przykładami zmiennych.)

Naprawdę (ryc. 1), respondenci 1 i 2 mogą być postrzegani jako równie nietypowi (tj. Odchyleni od 0, umiejscowienia centrum danych lub początku skali), oba mają ten sam średni wynik i . Wartość jest ważna, jako zakres nietypowości, dla konstrukcji równie doskonale, jak dla i $(.8+.8)/2=.8$ $(1.2+.4)/2=.8$ $.8$ $X+Y$ $X$ $Y$ osobno. Skorelowane zmienne, reprezentujące ten sam jeden wymiar, można postrzegać jako powtarzane pomiary tej samej cechy oraz różnicę lub nierównowa ność ich wyników jako błąd losowy. Dlatego zaleca się sumowanie / uśrednianie wyników, ponieważ oczekuje się, że błędy losowe będą się wzajemnie znosić .

Nie dzieje się tak, jeśli i nie są wystarczająco skorelowane, aby można było zobaczyć ten sam „wymiar”. W tym przypadku odchylenie / nietypowość respondenta wynika z odległości euklidesowej od źródła (ryc. 2). $X$ $Y$

Ta odległość jest inna dla respondentów 1 i 2: i $\sqrt{.8^2+.8^2} \approx 1.13$ , - odpowiedz 2, że jest dalej. Jeśli zmienne są niezależnymi wymiarami, odległość euklidesowa nadal odnosi się do pozycji respondenta względem zerowej wartości odniesienia, ale średnia ocena nie. Weź przykład z $\sqrt{1.2^2+.4^2} \approx 1.26$ $X=.8$ $Y=-.8$ $X=0$ $Y=0$

Inna odpowiedź tutaj wymienia sumę ważoną lub średnią, tj. $w_XX_i+w_YY_i$ $X$ $Y$ $w_X$ $w_Y$ są ustawione na stałe dla wszystkich respondentów i, co jest przyczyną wady. Aby odnieść dwuwymiarowe odchylenie respondenta - w kole lub elipsie - należy wprowadzić wagi zależne od jego wyników; rozważana wcześniej odległość euklidesowa jest w rzeczywistości przykładem takiej ważonej sumy z wagami zależnymi od wartości. A jeśli ważne jest, aby uwzględnić nierówne wariancje zmiennych (np. Głównych składników, jak w pytaniu), można obliczyć ważoną odległość euklidesową, odległość, która zostanie znaleziona na ryc. 2 po wydłużeniu koła.

$|.8|+|.8|=1.6$ $|1.2|+|.4|=1.6$ $X=.8$ $Y=-.8$ $1.6$ $0$

(Możesz powiedzieć: „Sprawię, że wszystkie wyniki danych będą pozytywne i obliczę sumę (lub średnią) z czystym sumieniem, odkąd wybrałem odległość Manhattena”, ale proszę pomyśleć - czy masz rację, aby swobodnie przenosić pochodzenie? Główne składniki lub czynniki, na przykład, są wyodrębniane pod warunkiem, że dane zostały wyśrodkowane na średniej, co ma sens. Inne pochodzenie wytworzyłoby inne składniki / czynniki z innymi punktami. Nie, przez większość czasu możesz nie grać z początkiem - locus „typowego respondenta” lub „cechy zerowej” - jak lubisz.)

Podsumowując , jeśli celem złożonej konstrukcji jest odzwierciedlenie pozycji respondentów względem jakiegoś „zerowego” lub typowego locus, ale zmienne prawie wcale nie korelują, jakiś rodzaj odległości przestrzennej od tego początku, a nie średnia (lub suma) ważona lub nieważone, należy wybrać.

Cóż, średnia (suma) będzie miała sens, jeśli zdecydujesz się postrzegać (nieskorelowane) zmienne jako alternatywne tryby pomiaru tej samej rzeczy. W ten sposób celowo ignorujesz inną naturę zmiennych. Innymi słowy, świadomie zostawiasz ryc. 2 na korzyść ryc. 1: „zapominasz”, że zmienne są niezależne. Następnie - zrób sumę lub średnią. Na przykład wyniki dotyczące „dobrobytu materialnego” i „dobrostanu emocjonalnego” można uśrednić, podobnie wyniki na „przestrzennym IQ” i „werbalnym IQ”. Ten typ czysto pragmatyczny, niezatwierdzone kompozycje satistycznie nazywane są wskaźnikami baterii (zbiór testów lub kwestionariuszy, które mierzą rzeczy niepowiązane lub rzeczy skorelowane, których korelacje ignorujemy, nazywane są „baterią”). Wskaźniki baterii mają sens tylko wtedy, gdy wyniki mają ten sam kierunek (takie jak bogactwo i zdrowie emocjonalne są postrzegane jako „lepszy” biegun). Ich przydatność poza wąskimi ustawieniami ad hoc jest ograniczona.

Jeśli zmienne są relacjami między nimi - są one w znacznym stopniu skorelowane, wciąż niewystarczająco silnie, aby uznać je za duplikaty, alternatywy, często sumujemy (lub uśredniamy) ich wartości w sposób ważony. Następnie wagi te powinny być starannie zaprojektowane i powinny odzwierciedlać, w taki czy inny sposób, korelacje. To, co robimy, na przykład za pomocą PCA lub analizy czynnikowej (FA), w której specjalnie obliczamy oceny składników / czynników. Jeśli twoje zmienne same już są wynikami składowymi lub współczynnikami (jak mówi tutaj pytanie OP) i są skorelowane (z powodu skośnego obrotu), możesz poddać je (lub bezpośrednio macierzy obciążeń) PCA / FA drugiego rzędu, aby znaleźć wagi i uzyskaj komputer / czynnik drugiego rzędu, który będzie dla Ciebie obsługiwał „indeks kompozytowy”.

Ale jeśli twoje wyniki składowe / czynniki były nieskorelowane lub słabo skorelowane, nie ma statystycznego powodu, aby nie sumować ich dosadnie ani poprzez wnioskowanie wag. Zamiast tego użyj pewnej odległości. Problem z odległością polega na tym, że zawsze jest ona pozytywna: możesz powiedzieć, jak nietypowy jest respondent, ale nie możesz powiedzieć, czy jest on „powyżej”, czy „poniżej”. Ale jest to cena, którą musisz zapłacić za żądanie jednego indeksu z przestrzeni z wieloma cechami. Jeśli chcesz zarówno odchylenia, jak i podpisania się w takiej przestrzeni, powiedziałbym, że jesteś zbyt wymagający.

W ostatnim punkcie OP pyta, czy słuszne jest przyjęcie wyniku tylko jednej, najsilniejszej zmiennej w odniesieniu do jej wariancji - w tym przypadku 1. głównego składnika - jako jedynego proxy dla „indeksu”. Ma sens, jeśli ten komputer jest znacznie silniejszy niż pozostałe komputery. Chociaż można by zapytać: „jeśli jest o wiele silniejszy, dlaczego nie wyodrębniłeś / nie zatrzymałeś tylko jego podeszwy?”.

— ttnphns
źródło

Tworzenie indeksu kompozytowego za pomocą PCA z szeregów czasowych linków do http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

W tym artykule na stronie 19 autorzy wspominają o sposobie utworzenia indeksu niestandardowego (NSI) poprzez zastosowanie proporcji zmienności wyjaśnionej przez każdy czynnik do całkowitej zmienności wyjaśnionej wybranymi czynnikami. Ten NSI został następnie znormalizowany.

— SACHIN GARG
źródło

Ta sekcja na stronie 19 zawiera dokładnie to wątpliwe, problematyczne sumowanie jabłek i pomarańczy, przed czym ostrzegała mnie ameba i ja w powyższych komentarzach. Sumowanie nieskorelowanych zmiennych w jednym indeksie prawie nie ma znaczenia statystycznego .

— ttnphns

Czasami dodajemy konstrukty / skale / testy, które są nieskorelowane i mierzymy różne rzeczy. To byłby indeks baterii (testy uważane za zupełnie inne / nieskorelowane są nazywane „baterią”). Indeks baterii może mieć jakiś lokalny pragmatyczny sens, chociaż prawie go brakuje znaczenia statystycznego , jak powiedziano w poprzednim komentarzu.

— ttnphns

patrz także pytanie stats.stackexchange.com/q/236786/3277 .

— ttnphns

-1 z powodu tego, co napisano powyżej.

— ameba mówi Przywróć Monikę