Uważam, że to, o co pytasz, dotyczy obcinania danych przy użyciu mniejszej liczby głównych komponentów (PC). Myślę, że w przypadku takich operacji funkcja ta prcomp
jest bardziej ilustracyjna, ponieważ łatwiej jest zwizualizować mnożenie macierzy zastosowane w rekonstrukcji.
Po pierwsze, podaj syntetyczny zestaw danych, Xt
wykonujesz PCA (zazwyczaj wyśrodkowujesz próbki w celu opisania komputerów związanych z macierzą kowariancji:
#Generate data
m=50
n=100
frac.gaps <- 0.5 # the fraction of data with NaNs
N.S.ratio <- 0.25 # the Noise to Signal ratio for adding noise to data
x <- (seq(m)*2*pi)/m
t <- (seq(n)*2*pi)/n
#True field
Xt <-
outer(sin(x), sin(t)) +
outer(sin(2.1*x), sin(2.1*t)) +
outer(sin(3.1*x), sin(3.1*t)) +
outer(tanh(x), cos(t)) +
outer(tanh(2*x), cos(2.1*t)) +
outer(tanh(4*x), cos(0.1*t)) +
outer(tanh(2.4*x), cos(1.1*t)) +
tanh(outer(x, t, FUN="+")) +
tanh(outer(x, 2*t, FUN="+"))
Xt <- t(Xt)
#PCA
res <- prcomp(Xt, center = TRUE, scale = FALSE)
names(res)
W wynikach lub prcomp
możesz zobaczyć PC ( res$x
), wartości własne ( res$sdev
) podające informacje o wielkości każdego PC i ładunkach ( res$rotation
).
res$sdev
length(res$sdev)
res$rotation
dim(res$rotation)
res$x
dim(res$x)
Kwadrat wartości własnych daje wariancję wyjaśnioną przez każdy komputer:
plot(cumsum(res$sdev^2/sum(res$sdev^2))) #cumulative explained variance
Wreszcie możesz utworzyć skróconą wersję swoich danych, używając tylko wiodących (ważnych) komputerów:
pc.use <- 3 # explains 93% of variance
trunc <- res$x[,1:pc.use] %*% t(res$rotation[,1:pc.use])
#and add the center (and re-scale) back to data
if(res$scale != FALSE){
trunc <- scale(trunc, center = FALSE , scale=1/res$scale)
}
if(res$center != FALSE){
trunc <- scale(trunc, center = -1 * res$center, scale=FALSE)
}
dim(trunc); dim(Xt)
Widać, że wynikiem jest nieco gładsza matryca danych, z filtrowanymi funkcjami małej skali:
RAN <- range(cbind(Xt, trunc))
BREAKS <- seq(RAN[1], RAN[2],,100)
COLS <- rainbow(length(BREAKS)-1)
par(mfcol=c(1,2), mar=c(1,1,2,1))
image(Xt, main="Original matrix", xlab="", ylab="", xaxt="n", yaxt="n", breaks=BREAKS, col=COLS)
box()
image(trunc, main="Truncated matrix (3 PCs)", xlab="", ylab="", xaxt="n", yaxt="n", breaks=BREAKS, col=COLS)
box()
A oto bardzo podstawowe podejście, które możesz wykonać poza funkcją prcomp:
#alternate approach
Xt.cen <- scale(Xt, center=TRUE, scale=FALSE)
C <- cov(Xt.cen, use="pair")
E <- svd(C)
A <- Xt.cen %*% E$u
#To remove units from principal components (A)
#function for the exponent of a matrix
"%^%" <- function(S, power)
with(eigen(S), vectors %*% (values^power * t(vectors)))
Asc <- A %*% (diag(E$d) %^% -0.5) # scaled principal components
#Relationship between eigenvalues from both approaches
plot(res$sdev^2, E$d) #PCA via a covariance matrix - the eigenvalues now hold variance, not stdev
abline(0,1) # same results
Teraz decyzja, które komputery zachować, to osobne pytanie - które interesowało mnie już dawno temu . Mam nadzieję, że to pomaga.