PCA danych niegaussowskich

20

Mam kilka szybkich pytań na temat PCA:

Czy PCA zakłada, że zestaw danych jest gaussowski?
Co się stanie, gdy zastosuję PCA do danych z natury nieliniowych?

Biorąc pod uwagę zestaw danych, proces polega najpierw na normalizacji średniej, ustawieniu wariancji na 1, wzięciu SVD, zmniejszeniu rangi, a na końcu odwzorowaniu zestawu danych na nową przestrzeń o zmniejszonej rangi. W nowej przestrzeni każdy wymiar odpowiada „kierunkowi” maksymalnej wariancji.

Ale czy korelacja tego zestawu danych w nowej przestrzeni zawsze wynosi zero, czy jest to prawdą tylko w przypadku danych, które są z natury gaussowskie?

Załóżmy, że mam dwa zestawy danych, „A” i „B”, gdzie „A” odpowiada losowo próbkowanym punktom pobranym z Gaussa, podczas gdy „B” odpowiada punktom losowo próbkowanym z innego rozkładu (powiedzmy Poissona).

Jak PCA (A) wypada w porównaniu z PCA (B)?
Patrząc na punkty w nowej przestrzeni, jak miałbym ustalić, że PCA (A) odpowiada punktom próbkowanym z Gaussa, podczas gdy PCA (B) odpowiada punktom próbkowanym z Poissona?
Czy korelacja punktów w „A” 0?
Czy korelacja punktów w „B” również wynosi 0?
Co ważniejsze, czy zadaję „właściwe” pytanie?
Czy powinienem spojrzeć na korelację, czy też jest inna metryka, którą powinienem rozważyć?

pca svd

— Vishal
źródło

2

Zobacz załącznik dotyczący założeń PCA w tym dokumencie .

— zakładano, że jest nietypowy,

17

Masz już kilka dobrych odpowiedzi (+1 do obu @ Cam.Davidson.Pilon i @MichaelChernick). Pozwolę sobie wyrzucić kilka punktów, które pomogą mi pomyśleć o tym problemie.

Po pierwsze, PCA działa na matrycy korelacji. Wydaje mi się zatem, że ważnym pytaniem jest, czy sensowne jest zastosowanie macierzy korelacji, która pomoże ci myśleć o swoich danych. Na przykład korelacja iloczynu Pearson-moment ocenia liniową zależność między dwiema zmiennymi; jeśli twoje zmienne są powiązane, ale nie liniowo, korelacja nie jest idealną miarą do indeksowania siły relacji. ( Oto miła dyskusja na temat CV na temat korelacji i danych niestandardowych).

Po drugie, myślę, że najłatwiejszym sposobem na zrozumienie, co się dzieje z PCA, jest po prostu obracanie osi. Możesz oczywiście robić więcej rzeczy i niestety PCA myli się z analizą czynnikową (która zdecydowanie się dzieje). Niemniej jednak zwykły stary PCA bez dzwonków i gwizdków można uznać za następujący:

masz kilka punktów wykreślonych w dwóch wymiarach na arkuszu papieru milimetrowego;
masz przezroczystość z narysowanymi na niej osiami ortogonalnymi i otworem na początku;
$(\bar x, \bar y)$
następnie obracasz przezroczystość, dopóki punkty (indeksowane zgodnie z osiami przezroczystości zamiast oryginalnych) nie zostaną skorelowane.

To nie jest idealna metafora dla PCA (np. Nie przeskalowaliśmy wariancji do 1). Ale daje ludziom podstawową ideę. Chodzi teraz o wykorzystanie tego obrazu do zastanowienia się, jak wygląda wynik, jeśli dane nie byłyby początkowo gaussowskie; które pomogą Ci zdecydować, czy warto ten proces wykonać. Mam nadzieję, że to pomaga.

— gung - Przywróć Monikę
źródło

2

+1 (dawno temu). Myślę, że jest to najlepsza odpowiedź w tym wątku, mam nadzieję, że zbierze ona jeszcze jeden głos, aby stać się najbardziej pozytywnym. Podoba mi się twój sposób wyjaśniania PCA z przezroczystością, to miłe.

— ameba mówi Przywróć Monikę

Nawiasem mówiąc, twoja odpowiedź zainspirowała moją ostatnią odpowiedź w naszym ogromnym świeckim wątku PCA: Stworzyłem te animowane gify, mając na uwadze twoją analogię do przejrzystości.

— ameba mówi Przywróć Monikę

To świetna odpowiedź, @amoeba. Jest o wiele lepszy niż to.

— gung - Przywróć Monikę

13

Mogę podać częściowe rozwiązanie i odpowiedzieć na twoje pytanie ~~akapit drugi~~ $w_1$ $w_2$ $Xw_1$ $Xw_2$ $X$

do o v (X w_{1}, X w_{2)}) = mi [(X w_{1})^{T.} (X w_{2)})] - mi [X w_{1}]^{T.} mi [X w_{2)}]

${\rm Cov}( Xw_1, Xw_2 ) = E[ (Xw_1)^T(Xw_2) ] - E[Xw_1]^TE[Xw_2]$

w_{i}

$w_i$

X

$X$

w_{1}^{T.} mi [X^{T.} X] w_{2)} = V. za r (X) w_{1}^{T.} w_{2)} = 0

$w_1^TE[X^TX]w_2 = {\rm Var}(X)w_1^Tw_2 = 0$

w_{i}

$w_i$

V a r (X)

$Var(X)$

$X$ $Xw$ $X$ $Xw$

$\alpha$

— Cam.Davidson.Pilon
źródło

7

PCA nie zakłada liniowości ani normalności. Pomysł polega jedynie na dekompozycji wariacji p-wymiarowego zestawu danych na komponenty ortogonalne uporządkowane zgodnie z wyjaśnioną wielkością wariancji.

— Michael R. Chernick
źródło

2

To prawda, ale „dekompozycja wariacji p-wymiarowego zestawu danych na komponenty ortogonalne” nie jest bardzo przydatna, gdy między zmiennymi występują zależności nieliniowe, ponieważ ortogonalizacja była zwykle wykonywana, aby można było argumentować, że wymiary nie są ze sobą powiązane (co jest również związane z gaussowską częścią pytania). Kiedy robisz PCA i planujesz interpretować wyniki w zwykły sposób, istnieje podstawowe założenie, że dane żyją w podprzestrzeni liniowej o niższych wymiarach .

— Makro

2

@Macro Niezupełnie. Powiedziałbym, że podstawowym założeniem jest to, że przynajmniej większość zmienności, a tym samym wzorca danych, jest skoncentrowana w pewnej przestrzeni o niższych wymiarach. Bardzo dobrze widzę parabolę w dwuwymiarowej przestrzeni z komponentami ortogonalnymi. Myślę, że kształty nieliniowe można oglądać w dwóch lub trzech wymiarach. Jeśli dane pochodzą z wielowymiarowego rozproszenia Gaussa, to w jakiejś podprzestrzeni punkty powinny wyglądać jak chmura elipsoidalna. Dystrybucja nie musi wyglądać jak elipsoida, aby jej widok w podprzestrzeni wysokich komputerów był interesujący.

— Michael R. Chernick,

4

Chciałbym to nieco zakwalifikować. SVD nie przyjmuje założenia normalności w klasycznym PCA lub PCA. Jednak algorytmy EM do obliczania PCA z brakującymi danymi zakładają normalność i liniowość.

— Jan

Chociaż klasyczna droga do PCA nie wymaga żadnych założeń, istnieje inna droga do jej rozwiązania: probabilistyczna PCA z szumem pomiaru 0.

— bayerj

3

Czytanie strony 7 tutaj:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

zauważają, że PCA zakłada, że rozkład wszystkiego, co wyjaśniamy, można opisać jedynie przez średnią (zero) i wariancję, która, jak mówią, może być jedynie rozkładem Normalnym.

(Zasadniczo oprócz odpowiedzi Cam, ale nie mam wystarczającej reputacji, aby komentować:)

— użytkownik3264325
źródło

1

Link, który podałeś do samouczka Shlensa, to wersja 1 samouczka, ale wersja 3.02 (wersja ostateczna?) Jest już dostępna i ten konkretny punkt został usunięty. Pytanie to dotyczyło dokładnie tego.

— Oren Milman,

0

O ile mi wiadomo, PCA nie zakłada normalności danych. Ale jeśli jest on zwykle rozłożony (w bardziej ogólnym sensie, symetrycznie rozłożony), wówczas wynik jest bardziej niezawodny. Jak twierdzą inni ludzie, kluczem jest to, że PCA opiera się na macierzy współczynnika korelacji Pearsona, na której oszacowanie wpływ mają wartości odstające i przekrzywiony rozkład. Dlatego w niektórych analizach, takich jak test statystyczny lub wartość p, powinieneś bardziej dbać o to, czy normalność jest spełniona; ale w innych aplikacjach, takich jak analiza eksploracyjna, możesz jej używać, ale zachowaj ostrożność tylko podczas dokonywania interpretacji.

— KarlHuang
źródło

-1

Uzgodniono z innymi, którzy powiedzieli, że dane powinny być „normalnie” rozpowszechniane. Każda dystrybucja będzie się nakładać z normalną dystrybucją, jeśli ją przekształcisz. Jeśli twój rozkład nie jest normalny, wyniki, które otrzymasz, będą gorsze niż w przypadku, gdy jest normalny, jak twierdzą niektórzy tutaj ...

W razie potrzeby możesz zmienić swoją dystrybucję.
Możesz wybrać PCA i zamiast tego użyć Niezależnej analizy składników (ICA).

Jeśli czytasz odniesienie w pierwszej odpowiedzi, w części Dodatku stwierdza, że założenie jest rozkładem normalnym.

— Popiół
źródło