Myślę, że przyjęta odpowiedź może być niebezpiecznie myląca (-1). Istnieją co najmniej cztery różne pytania zmieszane razem w PO. Rozważę je jeden po drugim.
- Pytanie 1 Ile wariancji danego komputera tłumaczy oryginalna zmienna? Ile wariancji danej zmiennej oryginalnej wyjaśnia dany komputer?
Te dwa pytania są równoważne, a odpowiedzi udziela kwadrat współczynnika korelacji między zmienną a komputerem. Jeśli PCA jest wykonywane na korelacjach, wówczas współczynnik korelacji jest podawany ( patrz tutaj ) przez odpowiedni element obciążeń . PC jest związany z wektorem własnym macierzy korelacji i odpowiednią wartością własną . Wektor jest podany przez . Jego elementami są korelacje tego komputera z odpowiednimi oryginalnymi zmiennymi. r ir2riVisiLiLi=(si)1/2Vi
Zauważ, że wektory własne i ładunki to dwie różne rzeczy! W R wektory własne są myląco nazywane „ładunkami”; należy zachować ostrożność: ich elementy nie są pożądanymi korelacjami. [Aktualnie akceptowana odpowiedź w tym wątku dezorientuje oba.]ViLi
Ponadto, jeśli PCA jest wykonywane na kowariancjach (a nie na korelacjach), wówczas ładunki dadzą również kowariancje, a nie korelacje. Aby uzyskać korelacje, należy je obliczyć ręcznie, zgodnie z PCA. [Aktualnie akceptowana odpowiedź na ten temat jest niejasna.]
- Q2 Ile wariancji danej oryginalnej zmiennej wyjaśnia dany podzbiór komputerów? Jak wybrać ten podzbiór, aby wyjaśnić np. wariancji?80%
Ponieważ komputery PC są ortogonalne (tj. Nieskorelowane), można po prostu dodać indywidualne wartości (patrz Q1), aby uzyskać globalną wartość .r2R2
Aby wybrać podzbiór, można dodawać komputery o najwyższych korelacjach ( ) z daną pierwotną zmienną, aż do osiągnięcia pożądanej ilości wyjaśnionej wariancji ( ).r2R2
- Pytanie 3 Ile wariancji danego komputera tłumaczy dany podzbiór oryginalnych zmiennych? Jak wybrać ten podzbiór, aby wyjaśnić np. wariancji?80%
Odpowiedź na to pytanie nie jest udzielana automatycznie przez PCA! Np. Jeśli wszystkie oryginalne zmienne są bardzo silnie skorelowane z parami , wówczas korelacje między pierwszym komputerem a wszystkimi zmiennymi będą wokół . Nie można dodać tych liczb aby obliczyć odsetek wariancji tego komputera wyjaśniony, powiedzmy, pięcioma zmiennymi oryginalnymi (spowodowałoby to nonsensowny wynik ). Zamiast tego należałoby zrestartować komputer na tych zmiennych i uzyskać wielokrotną wartość .R = 0.9 R 2 R 2 = 0,9 ⋅ 0,9 ⋅ 5 > 1 R 2r=0.9r=0.9r2R2=0.9⋅0.9⋅5>1R2
Jak wybrać podzbiór wyjaśniający daną wielkość wariancji, zasugerował @FrankHarrell (+1).