Ładunki (których nie należy mylić z wektorami własnymi) mają następujące właściwości:
- Ich sumy kwadratów w ramach każdego komponentu są wartościami własnymi (wariancje komponentów).
- Obciążenia to współczynniki w kombinacji liniowej przewidujące zmienną przez (znormalizowane) składniki.
Wyodrębniono 2 pierwsze komputery PC z 4. Matryca obciążeń i wartości własne:ZA
A (loadings)
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Eigenvalues:
1.0000000000 1.0000000000
W tym przypadku obie wartości własne są równe. Jest to rzadki przypadek w prawdziwym świecie, mówi się, że PC1 i PC2 mają taką samą „siłę” wyjaśniającą.
Załóżmy, że obliczyłeś także wartości składowe, Nx2macierz i ustandaryzowałeś (średnia = 0, odchylenie standardowe = 1) w każdej kolumnie. Następnie (jak mówi punkt 2 powyżej), . Ponieważ jednak pozostawiłeś tylko 2 komputery na 4 (brakuje 2 kolejnych kolumn w ), przywrócone wartości danych nie są dokładne, - wystąpił błąd (jeśli wartości własne 3, 4 nie są zero).X = C A ' XdoX^= C A′ZAX^
DOBRZE. Jakie są współczynniki do przewidywania składników według zmiennych ? Oczywiście, gdyby były pełne , byłyby to . Za pomocą macierzy obciążania niekwadratowego możemy obliczyć je jako , gdzie jest kwadratową macierzą diagonalną z wartościami własnymi na jej przekątnej, oraz indeks górny oznacza pseudoinwersję. W Twoim przypadku:ZA4x4B=(A−1)′B=A⋅diag(eigenvalues)−1=(A+)′diag(eigenvalues)+
diag(eigenvalues):
1 0
0 1
B (coefficients to predict components by original variables):
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Tak więc, jeśli jest macierzą oryginalnych zmiennych wyśrodkowanych (lub zmiennych znormalizowanych, jeśli wykonujesz PCA raczej na podstawie korelacji niż kowariancji), to ; to znormalizowane oceny głównych składników. Który w twoim przykładzie to:XNx4C=XBC
PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4
„pierwszy składnik jest proporcjonalny do średniego wyniku”
PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)
„drugi składnik mierzy różnicę między pierwszą parą wyników a drugą parą wyników”
W tym przykładzie okazało się, że , ale w ogólnym przypadku są one różne.B=A
Uwaga : Powyższa formuła dla współczynników do obliczenia wyniki elementów, , jest równoważna z istota macierz kowariancji (lub korelacji) zmiennych. Ta ostatnia formuła pochodzi bezpośrednio z teorii regresji liniowej. Te dwie formuły są równoważne tylko w kontekście PCA. W analizie czynnikowej nie są i do obliczenia wyników czynnikowych (które są zawsze przybliżone w FA) należy polegać na drugiej formule. B = R - 1 A RB=A⋅diag(eigenvalues)−1B=R−1AR
Powiązane odpowiedzi moje:
Bardziej szczegółowe informacje na temat obciążeń vs wektory własne .
Jak obliczane są oceny głównych składników i oceny czynników .