Jak interpretować ładunki PCA?

Czytając o PCA, natrafiłem na następujące wyjaśnienie:

Załóżmy, że mamy zestaw danych, w którym każdy punkt danych reprezentuje wyniki pojedynczego ucznia w teście matematycznym, teście fizyki, teście czytania ze zrozumieniem i teście słownictwa.

Znajdujemy dwa pierwsze główne składniki, które wychwytują 90% zmienności danych i interpretują ich obciążenia. Dochodzimy do wniosku, że pierwszy główny składnik reprezentuje ogólną zdolność akademicką, a drugi stanowi kontrast między zdolnością ilościową a zdolnością werbalną.

Tekst stwierdza, że ładunki PC1 i PC2 są dla PC1 i dla PC2, i oferuje następujące wyjaśnienie: $(0.5, 0.5, 0.5, 0.5)$ $(0.5, 0.5, -0.5, -0.5)$

[T] pierwszy składnik jest proporcjonalny do średniego wyniku, a drugi składnik mierzy różnicę między pierwszą parą wyników a drugą parą wyników.

Nie jestem w stanie zrozumieć, co oznacza to wyjaśnienie.

pca

— priyanka
źródło

Jakoś odpowiedź @ ttnphns zawiera wiele szczegółów matematycznych, ale myślę, że pierwotne pytanie było naprawdę proste: dlaczego wektor obciążeń dla PC1 wynoszący (0,5, 0,5, 0,5, 0,5) oznacza, że pierwszy składnik jest „proporcjonalny do średniego wyniku „? Odpowiedź brzmi: ładunki są [proporcjonalne do] współczynników w liniowej kombinacji oryginalnych zmiennych, które tworzą PC1. Tak więc twój pierwszy PC1 jest sumą wszystkich czterech zmiennych razy 0,5. Co oznacza, że jest proporcjonalna do średniej z czterech zmiennych. I podobnie z PC2. Myślę, że to odpowiada na pierwotne pytanie.

— ameba mówi Przywróć Monikę

@amoeba - Czy wiesz, jak trudno jest znaleźć tak proste wyjaśnienie obciążeń. Jakoś wszędzie wszędzie jest pełno żargonu żółci wokół mnie, zanim zdecyduję się przejść do następnego wyjaśnienia w Google. Dziękuję Ci!

— MiloMinderbinder

Ładunki (których nie należy mylić z wektorami własnymi) mają następujące właściwości:

Ich sumy kwadratów w ramach każdego komponentu są wartościami własnymi (wariancje komponentów).
Obciążenia to współczynniki w kombinacji liniowej przewidujące zmienną przez (znormalizowane) składniki.

Wyodrębniono 2 pierwsze komputery PC z 4. Matryca obciążeń i wartości własne: $\bf A$

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

W tym przypadku obie wartości własne są równe. Jest to rzadki przypadek w prawdziwym świecie, mówi się, że PC1 i PC2 mają taką samą „siłę” wyjaśniającą.

Załóżmy, że obliczyłeś także wartości składowe, Nx2macierz i ustandaryzowałeś (średnia = 0, odchylenie standardowe = 1) w każdej kolumnie. Następnie (jak mówi punkt 2 powyżej), . Ponieważ jednak pozostawiłeś tylko 2 komputery na 4 (brakuje 2 kolejnych kolumn w ), przywrócone wartości danych nie są dokładne, - wystąpił błąd (jeśli wartości własne 3, 4 nie są zero). $\bf C$ $\bf \hat {X}=CA'$ $\bf A$ $\bf \hat {X}$

DOBRZE. Jakie są współczynniki do przewidywania składników według zmiennych ? Oczywiście, gdyby były pełne , byłyby to . Za pomocą macierzy obciążania niekwadratowego możemy obliczyć je jako , gdzie jest kwadratową macierzą diagonalną z wartościami własnymi na jej przekątnej, oraz indeks górny oznacza pseudoinwersję. W Twoim przypadku: $\bf A$ 4x4 $\bf B=(A^{-1})'$ $\bf B= A \cdot diag(eigenvalues)^{-1}=(A^+)'$ diag(eigenvalues)+

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Tak więc, jeśli jest macierzą oryginalnych zmiennych wyśrodkowanych (lub zmiennych znormalizowanych, jeśli wykonujesz PCA raczej na podstawie korelacji niż kowariancji), to ; to znormalizowane oceny głównych składników. Który w twoim przykładzie to: $\bf X$ Nx4 $\bf C=XB$ $\bf C$

PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4

„pierwszy składnik jest proporcjonalny do średniego wyniku”

PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)

„drugi składnik mierzy różnicę między pierwszą parą wyników a drugą parą wyników”

W tym przykładzie okazało się, że , ale w ogólnym przypadku są one różne. $\bf B=A$

Uwaga : Powyższa formuła dla współczynników do obliczenia wyniki elementów, , jest równoważna z istota macierz kowariancji (lub korelacji) zmiennych. Ta ostatnia formuła pochodzi bezpośrednio z teorii regresji liniowej. Te dwie formuły są równoważne tylko w kontekście PCA. W analizie czynnikowej nie są i do obliczenia wyników czynnikowych (które są zawsze przybliżone w FA) należy polegać na drugiej formule. $\bf B= A \cdot diag(eigenvalues)^{-1}$ $\bf B=R^{-1}A$ $\bf R$

Powiązane odpowiedzi moje:

Bardziej szczegółowe informacje na temat obciążeń vs wektory własne .

Jak obliczane są oceny głównych składników i oceny czynników .

— ttnphns
źródło

Jeżeli 2 z 4 składników stanowią 90% zmienności, dlaczego ich wartości własne sumują się do 2?

— Nick Cox,

Nick, wierzę, że to pytanie do OP. Nie podał danych ani macierzy kowariancji / korelacji. Wszystko, co mieliśmy od niego, to (raczej nierealistyczna) matryca ładowania 2 pierwszych komputerów.

— ttnphns

4 \times 4

$4\times4$

4

$4$

1

$1$

50 %

$50\%$

90 %

$90\%$