Mam kilka szybkich pytań na temat PCA:
- Czy PCA zakłada, że zestaw danych jest gaussowski?
- Co się stanie, gdy zastosuję PCA do danych z natury nieliniowych?
Biorąc pod uwagę zestaw danych, proces polega najpierw na normalizacji średniej, ustawieniu wariancji na 1, wzięciu SVD, zmniejszeniu rangi, a na końcu odwzorowaniu zestawu danych na nową przestrzeń o zmniejszonej rangi. W nowej przestrzeni każdy wymiar odpowiada „kierunkowi” maksymalnej wariancji.
- Ale czy korelacja tego zestawu danych w nowej przestrzeni zawsze wynosi zero, czy jest to prawdą tylko w przypadku danych, które są z natury gaussowskie?
Załóżmy, że mam dwa zestawy danych, „A” i „B”, gdzie „A” odpowiada losowo próbkowanym punktom pobranym z Gaussa, podczas gdy „B” odpowiada punktom losowo próbkowanym z innego rozkładu (powiedzmy Poissona).
- Jak PCA (A) wypada w porównaniu z PCA (B)?
- Patrząc na punkty w nowej przestrzeni, jak miałbym ustalić, że PCA (A) odpowiada punktom próbkowanym z Gaussa, podczas gdy PCA (B) odpowiada punktom próbkowanym z Poissona?
- Czy korelacja punktów w „A” 0?
- Czy korelacja punktów w „B” również wynosi 0?
- Co ważniejsze, czy zadaję „właściwe” pytanie?
- Czy powinienem spojrzeć na korelację, czy też jest inna metryka, którą powinienem rozważyć?