PCA, ICA i mapy własne Laplaciana

11

Pytanie

Jestem bardzo zainteresowany metodą Laplacian Eigenmaps. Obecnie używam go do redukcji wymiarów w moich zestawach danych medycznych.

Jednak natknąłem się na problem przy użyciu tej metody.

Na przykład mam pewne dane (sygnały widmowe) i mogę użyć PCA (lub ICA), aby uzyskać trochę komputerów (lub układów scalonych). Problem polega na tym, jak uzyskać podobne elementy o zmniejszonych wymiarach oryginalnych danych za pomocą LE?

Zgodnie z metodą Laplacian eigenmaps musimy rozwiązać uogólniony problem wartości własnych, to znaczy

$L y = \lambda D y$

Tutaj jest wektorem własnym. Jeśli wykreślę np. 3 najlepsze wektory własne (rozwiązanie według 3 wartości własnych), wyników nie da się zinterpretować. $y$

Jednak gdy wykreślę 3 najlepsze komputery osobiste i 3 najlepsze układy scalone, wyniki zawsze wydają się wyraźnie (wizualnie) reprezentować oryginalne dane . $x$

Zakładam, że powodem jest to, że macierz jest zdefiniowana przez macierz ciężaru (macierz adiakencji ), a dane zostały wyposażone w jądro ciepła, aby utworzyć , który wykorzystuje funkcję wykładniczą. Moje pytanie brzmi: jak uzyskać zredukowane składowe (nie wektor własny macierzy )? $L$ $W$ $x$ $W$ $x$ $y$ $L$

Dane

Mój zestaw danych jest ograniczony i nie jest łatwo zademonstrować problem. Tutaj stworzyłem problem z zabawką, aby pokazać, co miałem na myśli i o co chcę zapytać.

Proszę zobaczyć zdjęcie,

Najpierw tworzę niektóre sinusoidy A, B, C pokazane na czerwonych krzywych (pierwsza kolumna rysunku). A, B i C mają 1000 próbek, innymi słowy, zapisane w 1x1000 wektorów.

Po drugie, zmieszałem źródła A, B, C, używając losowo utworzonych kombinacji liniowych, np. , w których są wartościami losowymi. Mieszany sygnał znajduje się w przestrzeni o bardzo dużych wymiarach, np. , 1517 jest losowo wybraną przestrzenią o dużych wymiarach. Pokazuję tylko pierwsze trzy rzędy sygnału M na zielonych krzywych (druga kolumna rysunku). $M = r_1*A + r_2*B + r_3*C$ $r_1, r_2, r_3$ $M$ $M \in R^{1517\times1000}$

Następnie uruchamiam mapy własne PCA, ICA i Laplacian, aby uzyskać wyniki redukcji wymiarów. Zdecydowałem się na użycie 3 komputerów PC, 3 układów scalonych i 3 LE, aby dokonać uczciwego porównania (niebieskie krzywe pokazane odpowiednio jako 3, 4 i ostatnia kolumna rysunku).

Na podstawie wyników PCA i ICA (trzecia, czwarta kolumna rysunku) możemy zobaczyć, że możemy interpretować wyniki jako pewną redukcję wymiarów, tj. Dla wyników ICA możemy odzyskać zmiksowany sygnał przez $M = b_1*IC1 + b_2*IC2 + b_3*IC3$ (Nie jestem pewien, czy możemy również dostać $M = a_1*PC1 + a_2*PC2 + a_3*PC3$ z wynikami PCA, ale wynik wydaje mi się całkiem odpowiedni).

Proszę jednak spojrzeć na wyniki LE, ledwo mogę zinterpretować wyniki (ostatnia kolumna rysunku). Wydaje się, że coś jest „nie tak” ze zredukowanymi komponentami. Chciałbym również wspomnieć, że ostatecznie wykres ostatniej kolumny jest wektorem własnym $y$ we wzorze $L y = \lambda D y$

Czy ludzie mają więcej pomysłów?

Ryc. 1 z użyciem 12 najbliższych sąsiadów i sigma w jądrze grzewczym wynosi 0,5: Kolumny od lewej do prawej: sygnał oryginalny, sygnał mieszany, komputery PC, układy scalone, LE

Ryc. 2 z użyciem 1000 najbliższych sąsiadów i sigma w jądrze grzewczym wynosi 0,5: Kolumny od lewej do prawej: sygnał oryginalny, sygnał mieszany, komputery PC, układy scalone, LE

Kod źródłowy: kod Matlab z wymaganym pakietem

pca ica

— Samo Jerom
źródło

2

Co rozumiesz przez zredukowane składniki x? Czy chcesz powiedzieć, że osadzenie x w niskim wymiarze?

— karawan

Brzmi interesująco. Czy mógłbyś podać bardziej szczegółowy opis tego, jak w rzeczywistości wyglądają twoje dane?

— Placidia,

4

Odpowiedź na to pytanie jest przez mapowanie na dole strony 6 pierwotnego Laplace'a Eigenmaps papieru :

$x_i \rightarrow (f_1(i), \dots, f_m(i))$

Na przykład osadzenie punktu $x_5$ w, powiedzmy, najlepszych 2 „komponentach” podano przez $(f_1(5), f_2(5))$ gdzie $f_1$ i $f_2$ to wektory własne odpowiadające dwóm najmniejszym niezerowym wartościom własnym z uogólnionego problemu wartości własnych $L f = \lambda D f$ .

Należy zauważyć, że w przeciwieństwie do PCA uzyskanie osadzenia poza próbką nie jest proste. Innymi słowy, można uzyskać osadzenie punktu, który był już brany pod uwagę podczas obliczeń $L$ , ale nie (łatwo), jeśli jest to nowy punkt. Jeśli chcesz to zrobić, poszukaj tego artykułu .

— Shantanu
źródło

Jestem trochę zdezorientowany co do tego, co uważasz za swoje zmienne. Z tego co rozumiem, twoja matryca

M

$M$ składa się z 1517 próbek z 1000-wymiarowej przestrzeni. Kiedy wykonujesz PCA (lub ICA) na tej macierzy, możesz całkiem dobrze odzyskać leżące u podstaw tryby wariacji: na przykład w kolumnie 3 na twoich rysunkach wiersz 1,2,3 odpowiada zasadom C, A, B odpowiednio. To ma sens. Jednak w kodzie podczas wykonywania LEM wywołujesz tę funkcję

M^{T}

$M^T$ ( mixedSignal'), co nie jest zgodne z powyższym.

— Shantanu

Najpierw w macierzy

M

$M$ , jakie masz zmienne i jakie są twoje obserwacje? Po drugie, z analizy wynika, że nie tylko szukasz osadzenia

M

$M$ używając LEM, ale także ekwiwalentu wektorów własnych jak w PCA, prawda? Nie możesz tego zrobić LEM, przynajmniej nie łatwo. Przeczytaj ten artykuł, aby zrozumieć, dlaczego.

— Shantanu

Jeśli wszystko, czego szukasz, to osadzanie, to łatwo daje to mapowanie

x_{i} \to (f_{1} (i), \dots, f_{m} (i))

$x_i \rightarrow (f_1(i), \dots, f_m(i))$ . Poszukaj mojej odpowiedzi, by poznać szczegóły. W kodzie zmień wiersz 47 i użyj mixedSignalzamiast jego transpozycji; wynik mappedXda ci trójwymiarowe osadzenie twoich 1517 punktów.

— Shantanu

PS: Powyżej miałem na myśli „Nie możesz tego zrobić za pomocą LEM, przynajmniej nie łatwo”.

— Shantanu

2

Oto link do strony internetowej Prof. Trosseta kursu, a także pisze książkę http://mypage.iu.edu/~mtrosset/Courses/675/notes.pdf, która jest aktualizowana co tydzień. Podano również funkcje R dla Laplacian map własnych. Po prostu spróbuj sam. Możesz także rozważyć ten artykuł Belkina

Dzięki Abhik Student Prof. Trosset

— użytkownik4959
źródło

1

W przeciwieństwie do PCA-Laplacian mapy własne wykorzystują uogólnione wektory własne odpowiadające najmniejszym wartościom własnym. Pomija wektor własny o najmniejszej wartości własnej (może wynosić zero) i wykorzystuje wektory własne odpowiadające kolejnym kilku najmniejszym wartościom własnym. PCA jest maksymalnym wariantem zachowującym osadzanie za pomocą matrycy jądra / gram. Laplacian Eigenmaps stanowi problem minimalizacji w odniesieniu do kombinatorycznego wykresu laplacian (patrz artykuły Trosset).

— karawan
źródło

Wszystkich zainteresowanych proszę ponownie spojrzeć na moje pytanie. Podam kilka przykładów. Dziękuję bardzo.

— Samo Jerom,