Nie wybierasz podzbioru swoich oryginalnych zmiennych 99 (100-1).
Każdy z głównych składników to liniowe kombinacje wszystkich 99 zmiennych predykcyjnych (zmienne x, IV, ...). Jeśli użyjesz pierwszych 40 głównych składników, każdy z nich jest funkcją wszystkich 99 oryginalnych zmiennych predykcyjnych. (Przynajmniej ze zwykłym PCA - istnieją rzadkie / uregulowane wersje, takie jak SPCA Zou, Hastie i Tibshirani, które dostarczą składniki oparte na mniejszej liczbie zmiennych).
Rozważ prosty przypadek dwóch dodatnio skorelowanych zmiennych, które dla uproszczenia założymy, że są jednakowo zmienne. Wtedy pierwszy główny składnik będzie (ułamkową) wielokrotnością sumy obu zmiennych, a drugi będzie (ułamkową) wielokrotnością różnicy dwóch zmiennych; jeśli dwa nie są jednakowo zmienne, pierwszy główny składnik będzie bardziej obciążał bardziej zmienny, ale nadal będzie obejmował oba.
Zaczynasz więc od 99 zmiennych x, na podstawie których obliczasz 40 głównych składników, stosując odpowiednie wagi dla każdej z pierwotnych zmiennych. [NB w mojej dyskusji Zakładam i „s są już skoncentrowane.]yX
Następnie używasz 40 nowych zmiennych, tak jakby były one predyktorami same w sobie, tak jak w przypadku dowolnego problemu z regresją wielokrotną. (W praktyce istnieją bardziej wydajne sposoby uzyskiwania oszacowań, ale odłóżmy na bok aspekty obliczeniowe i po prostu zajmijmy się podstawowym pomysłem)
W odniesieniu do drugiego pytania nie jest jasne, co rozumiesz przez „odwrócenie PCA”.
Twoje komputery to liniowe kombinacje oryginalnych wariantów. Załóżmy, że twoje pierwotne zmienne są w , a obliczasz (gdzie to a to macierz , która zawiera główne masy składników dla używanych składników), a następnie: estimate poprzez regresję.XZ= XW.Xn × 99W.99 × 4040y^= Zβ^PC
Następnie możesz napisać powiedzieć (gdzie , oczywiście), więc możesz napisać to jako funkcję oryginalnych predyktorów; Nie wiem, czy to, co masz na myśli przez „odwrócenie”, ale jest to znaczący sposób spojrzeć na pierwotnej relacji między i . Oczywiście nie jest to to samo, co współczynniki, które uzyskuje się, szacując regresję na oryginalnych X-ach - jest to regulowane przez wykonanie PCA; nawet jeśli w ten sposób uzyskasz współczynniki dla każdego z oryginalnych X-ów, mają one tylko współczynnik df liczby zamontowanych elementów.y^= Zβ^PC= XW.β^PC= Xβ^∗β^∗= W.β^PCyX
Zobacz także Wikipedię na temat regresji głównych składników .