Jak interpretować PCA na danych szeregów czasowych?


19

Próbuję zrozumieć zastosowanie PCA w niedawnym artykule w czasopiśmie zatytułowanym „Mapowanie aktywności mózgu na dużą skalę za pomocą obliczeń klastrowych” Freeman i in., 2014 (bezpłatny plik pdf dostępny na stronie laboratorium ). Używają PCA do danych szeregów czasowych i wykorzystują wagi PCA do stworzenia mapy mózgu.

Dane to średnie dane obrazowania z próby, przechowywane jako macierz (zwana w dokumencie ) z wokselami (lub lokalizacjami obrazowania w mózgu) punktów czasowych (długość pojedynczego stymulacja mózgu). nx tY^n×t^

Używają SVD, czego wynikiem jest ( wskazujący na transpozycję macierzy ).VV

Y^=USV
VV

Autorzy twierdzą, że

Głównymi składnikami (kolumny ) są wektory długości , a wyniki (kolumny ) są wektorami o długości (liczba wokseli), opisującymi rzut każdego woksela na kierunek podane przez odpowiedni komponent, tworząc rzuty na objętość, tj. mapy całego mózgu.T U nVt^Un

Komputery są więc wektorami długości . Jak mogę zinterpretować, że „pierwszy główny składnik wyjaśnia największą wariancję”, co jest często wyrażane w tutorialach PCA? Zaczęliśmy od macierzy wielu wysoce skorelowanych szeregów czasowych - jak pojedynczy szereg czasowy na PC wyjaśnia wariancję w oryginalnej macierzy? Rozumiem cały „obrót Gaussowskiej chmury punktów do najbardziej zróżnicowanej osi”, ale nie jestem pewien, w jaki sposób odnosi się to do szeregów czasowych. Co autorzy rozumieją przez kierunek, gdy stwierdzają: „wyniki (kolumny ) są wektorami o długościt^ nUn (liczba wokseli), opisujący rzut każdego woksela na kierunek podany przez odpowiedni komponent „? W jaki sposób kurs czasowy głównego komponentu może mieć kierunek?

Aby zobaczyć przykład wynikowej szeregu czasowego z liniowych kombinacji podstawowych składników 1 i 2 oraz powiązanej mapy mózgu, przejdź do następującego łącza i najedź myszką na kropki na wykresie XY.

Freman i in.

Moje drugie pytanie dotyczy trajektorii (przestrzeni stanów), które tworzą za pomocą głównych ocen składowych.

Są one tworzone przez pobranie pierwszych 2 wyników (w przypadku przykładu „optomotor”, który opisałem powyżej) i rzutowanie poszczególnych prób (wykorzystanych do utworzenia matrycy uśrednionej z próby opisanej powyżej) do głównej podprzestrzeni równaniem:

J=UY.

Jak widać w połączonych filmach, każdy ślad w przestrzeni stanów reprezentuje aktywność mózgu jako całości.

Czy ktoś może podać intuicję, co oznacza każda „klatka” filmu w przestrzeni stanów, w porównaniu do liczby, która kojarzy wykres XY wyników pierwszych 2 komputerów. Co to znaczy przy danej „ramce”, że 1 próba eksperymentu znajduje się w 1 pozycji w przestrzeni stanów XY i kolejna próba jest w innej pozycji? W jaki sposób pozycje fabuły XY w filmach odnoszą się do głównych śladów składowych na połączonej figurze wspomnianej w pierwszej części mojego pytania?

Freeman i in.


1
+1 Zredagowałem twoje pytanie, zobacz, jak można tutaj sformatować równania tex. Poza tym dobrze znam ten artykuł, więc odpowiemy później.
ameba mówi Przywróć Monikę

1
Nie jest to dokładnie to, czego chce OP, ale może się przydać w interpretacji głównych składników, gdy zaczerpnąłem z danych szeregów czasowych, ponieważ robię to cały czas. Zwykle lubię interpretować PCA jako rozszerzenie Karhunena-Loève'a: wyrażanie danego szeregu czasowego, (różne szeregi czasowe, do których stosuje się PCA), jako liniową kombinację nieskorelowanych szeregów czasowych (tj. Głównych składników). Wagi każdego szeregu czasowego w tym przypadku są podane przez wektory własne uzyskane z macierzy kowariancji. Xt
Néstor,

1
(Zobacz to, aby uzyskać bardziej szczegółowe wyjaśnienie mojego punktu: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )
Néstor

1
Dodałem do twojego pytania kilka zrzutów ekranu, o których mówiłeś.
ameba mówi Przywróć Monikę

jak dodałeś zdjęcia?
statHacker

Odpowiedzi:


16

P1: Jaki jest związek między szeregami czasowymi komputera a „maksymalną wariancją”?

Dane, które są ich analizy są punktów danych dla każdego z neuronów, więc można pomyśleć o tym, jak punktów danych w -wymiarowej przestrzeni . Jest to „chmura punktów”, więc, jak dobrze wiesz, wykonywanie PCA sprowadza się do znalezienia kierunków maksymalnej wariancji. Wolę nazywać te kierunki (które są wektorami własnymi macierzy kowariancji) „głównymi osiami”, a rzuty danych na te kierunki „głównymi składnikami”. n t nRNt^nt^nRn

Analizując szeregi czasowe, jedynym dodatkiem do tego obrazu jest to, że punkty są porządnie uporządkowane lub ponumerowane (od do ), w przeciwieństwie do po prostu nieuporządkowanego zbioru punktów. Co oznacza, że ​​jeśli weźmiemy szybkość wyzwalania jednego pojedynczego neuronu (który jest jedną współrzędną w ), wówczas jego wartości można wykreślić w funkcji czasu. Podobnie, jeśli weźmiemy jeden komputer PC (który jest rzutem z na jakąś linię), wówczas również ma on wartości i może być wykreślony w funkcji czasu. Więc jeśli oryginalnymi funkcjami są szeregi czasowe, to komputery też są szeregami czasowymi.t R N R n t1t^RnRnt^

Zgadzam się z powyższą interpretacją @ Nestora: każda oryginalna funkcja może być następnie postrzegana jako liniowa kombinacja komputerów PC, a ponieważ komputery PC są ze sobą nieskorelowane, można je traktować jako funkcje podstawowe, na które rozkładają się oryginalne funkcje. To trochę jak analiza Fouriera, ale zamiast brać stałe podstawy sinusów i cosinusów, znajdujemy „najodpowiedniejszą” podstawę dla tego konkretnego zestawu danych, w tym sensie, że pierwsze PC odpowiada za największą wariancję itp.

„Uwzględnianie większości wariancji” oznacza tutaj, że jeśli weźmiesz tylko jedną funkcję podstawową (szeregi czasowe) i spróbujesz z nią przybliżyć wszystkie swoje funkcje, wtedy pierwszy komputer wykona najlepszą robotę. Podstawową intuicją jest to, że pierwszy komputer to szereg czasowy z funkcją podstawową, który najlepiej pasuje do wszystkich dostępnych szeregów czasowych itp.


Dlaczego ten fragment Freemana i in. takie mylące?

Freeman i in. analizuj macierz danych ze zmiennymi (tj. neuronami) w wierszach (!), a nie w kolumnach. Zauważ, że odejmują średnie wierszy, co ma sens, ponieważ zmienne są zwykle wyśrodkowane przed PCA. Następnie wykonują SVD:Korzystając z terminologii, którą zalecam powyżej, kolumny są głównymi osiami (kierunki w ), a kolumny są głównymi składnikami (szereg czasowy długości ). Y =USV. URNSV TY^

Y^=USV.
URnSVt^

Zdanie, które zacytowałeś z Freeman i in. jest rzeczywiście dość mylące:

Głównymi składnikami (kolumny ) są wektory długości , a wyniki (kolumny ) są wektorami o długości (liczba wokseli), opisującymi rzut każdego woksela na kierunek podane przez odpowiedni komponent, tworząc rzuty na objętość, tj. mapy całego mózgu.T U nVt^Un

Po pierwsze, kolumny nie są komputerami PC, ale komputerami skalowanymi do normy jednostkowej. Po drugie, kolumny NIE są wynikami, ponieważ „wyniki” zwykle oznaczają komputery osobiste. Po trzecie, „kierunek podany przez odpowiedni komponent” jest pojęciem tajemniczym. I pomyśleć , że przerzucenie obrazu tu i sugerują, aby myśleć o punktów w -wymiarowej przestrzeni, tak że teraz każdy neuron jest punkt danych (a nie zmienna). Koncepcyjnie brzmi to jak wielka zmiana, ale matematycznie nie robi prawie żadnej różnicy, a jedyną zmianą jest to, że główne osie i główne składniki [jednostki-normy] zmieniają miejsca. W tym przypadku moje komputery z góry ( - długie szeregi czasowe) staną się głównymi osiami, tjU N T T UVUnt^t^kierunki i można traktować jako znormalizowane projekcje na te kierunki (znormalizowane wyniki?).U

Uważam to za bardzo mylące, dlatego sugeruję zignorować ich wybór słów, ale tylko patrzeć na formuły. Od tego momentu będę używać terminów tak, jak je lubię, a nie jak Freeman i in. Użyj ich.


P2: Jakie są trajektorie przestrzeni stanów?

Pobierają dane z pojedynczej próby i rzutują je na dwie pierwsze główne osie, tj. Dwie pierwsze kolumny ). Jeśli zrobiłbyś to z oryginalnymi danymi , odzyskałbyś dwa pierwsze główne składniki. Znowu, występ na jednej osi głównej jest głównym składnikiem, tj -long szeregów czasowych.T TUY^t^

Jeśli zrobisz to z niektórymi danymi z pojedynczej próby , ponownie otrzymasz dwie -długie szeregi czasowe. W filmie każda pojedyncza linia odpowiada takiej projekcji: współrzędna x ewoluuje zgodnie z PC1 i współrzędna y zgodnie z PC2. Jest to tak zwana „przestrzeń stanu”: PC1 wykreślony na PC2. Czas mija, a kropka się porusza.TYt^

Każda linia w filmie jest otrzymywany z innym pojedynczej próby .Y


Zadałem to pytanie jako komentarz poniżej, ale może @amoeba może pomóc? Czy pierwszy główny wektor wag składowych to po prostu średnie szeregi czasowe zwijające się we wszystkich wokselach? Gdyby to była średnia, wyniki byłyby najmniejsze, aby pasowały do ​​poszczególnych śladów danych. -
statHacker

1
Krótka odpowiedź brzmi „ nie” , na ogół nie jest to średni szereg czasowy, chociaż w wielu przypadkach może być całkiem blisko. Jako przykład pomyślmy o szeregu szeregów czasowych, które wszystkie są liniami prostymi o różnych nachyleniach (dodatnich i ujemnych) przechodzących przez zero. Wówczas średnie szeregi czasowe są bliskie zeru. Ale pierwszy komputer będzie silną linią liniową. BTW, myślę, że to doskonałe pytanie i jeśli chcesz uzyskać więcej szczegółów i / lub danych liczbowych, zadaj je (ponownie) jako osobne pytanie. Pamiętaj tylko, aby nie powielać żadnych części tego pytania dotyczącego Freemana i in .; rozdzielić je.
ameba mówi Przywróć Monikę

(lub ktokolwiek inny zainteresowany odpowiedzią) - w odniesieniu do drugiego kwartału, co rozumiesz przez „projekt [każda próba] na pierwsze dwa [komputery PC]”. Matematycznie jest bardzo jasne, że U jest wektorem o długości n wokseli, a gdy macierz pomnożona przez długość n macierzy Y, osiągamy redukcję wymiarów do pierwszych 2 komputerów. Czy potrafisz podać intuicję w odniesieniu do tego, że U jest macierzą wyników (tj. Odległość każdego woksela od pierwszych 2 komputerów). Czy mogę myśleć o każdym punkcie czasowym J jako średniej 2-d rzutu każdej pozycji wokseli na dwuwymiarowym wykresie pierwszego obrazu powyżej?
statHacker,

Masz rację, źle to wytłumaczyłem. Zredagowałem swoje pytanie, rozszerzając kilka jego części; przeczytaj ponownie od początku (lub zobacz, co zmieniłem), aby upewnić się, że podążasz. Nie myśl o jako o „wynikach” !! są głównymi osiami, kierunkami w przestrzeni neuronu. Biorą pojedyncze próby i projektują na dwóch pierwszych głównych osiach. To, co otrzymują (z jednej próby), to dwie serie czasowe. Mogą wykreślić oba w funkcji czasu, ale zamiast tego wykreślają je jeden przeciw drugim: PC1 vs. PC2. To jest „przestrzeń państwowa”. Każda linia odpowiada innej pojedynczej próbie! Więc na twoje ostatnie pytanie: NIE! UUU
ameba mówi Przywróć Monikę

Czy „ ” to literówka powyżej ?: „Korzystając z terminologii, którą zalecam powyżej, kolumny U są osiami głównymi (kierunki w Rn), a kolumny SV są głównymi składnikami (szeregi czasowe długości t ^).” SV
statHacker

1

W odniesieniu do pierwszego pytania. Rozważmy cały szereg czasowy przez określony woksel jako pojedyncze losowanie z rozkładu wielowymiarowego. Możemy teraz myśleć o tym jak o wektorze wielowymiarowym, podobnie jak w każdym innym, do którego moglibyśmy zastosować PCA. Pierwsze kolumny są następnie Eigen-timecourses, które po połączeniu zapewniają liniowe najlepsze przybliżenie do przebiegu czasowego przez konkretnego wokseli dla czas bodźca.V tpVt^

Więc jest macierzą , a zatem jest podczas gdy to . nx T UnxnV. T x tY^n×t^Un×nVt^×t^

W odniesieniu do drugiego pytania. Podane równanie to

J=UTY

Daje się nam, że jest macierzą 2 lub 3 . (Obejmuje to małą sztuczkę ręki w upuszczaniu rzędów / kolumn.) Dwa lub trzy są wybierane jako wymiarowość, ponieważ można to narysować na rycinie 6 artykułu.× tJ×t

Jednak więc spodziewam się, że oddzielne ślady (linie na ryc. 6) zostały uzyskane poprzez posiekanie w różne segmenty odpowiadające prezentacjom bodźca. Każdy z tych bloków można następnie narysować w przestrzeni 2 lub 3 wymiarowej, biorąc pod uwagę każdą kolumnę jako punkt w tej przestrzeni, a następnie rysując linię między punktami zdefiniowanymi przez sąsiednie kolumny podające trajektorie. Jtt^J

Opierając się na wyżej obrazu 8 pojawia się dla każdego bloku dodać każdy punkt (Column-) kolejno przyłączyć go do ostatniego punktu, a czyni to długość sekwencję jak wideo.t^

Nie zajmowałem się wcześniej metodologią kolorowania i minęło trochę czasu, zanim byłem pewny skomentować ten aspekt. Komentarz na temat podobieństwa do ryc. 4c był mylący, ponieważ zabarwienie uzyskuje się tam poprzez regresję per-wokseli. Natomiast na ryc. 6 każdy ślad jest artefaktem całego obrazu. Chyba, że ​​jestem wyprostowany, myślę, że jest to kierunek bodźca podczas tego odcinka czasu, zgodnie z komentarzem na rysunku.


Pierwsza rycina powyżej odnosi się do eksperymentu z tym samym bodźcem wizualnym prezentowanym za każdym razem. Dla tych danych istnieje inna liczba i film. Druga rycina powyżej odnosi się do innego eksperymentu, w którym bodźce są bodźcami wzrokowymi o różnych orientacjach, ślady na drugiej figurze powyżej są kolorowe, aby po prostu odpowiadać różnym orientacjom bodźców wzrokowych.
statHacker

YT^ \ n

V.S.
jot=UY.
U

Zmieniłem rzeczy. Przepraszam, zostałem jeszcze przed tym, jak uporządkowałem coś innego.
przypuszcza

Dziękuję za twoją pomoc. Czy pierwszy główny wektor wag składowych to po prostu średnie szeregi czasowe zwijające się we wszystkich wokselach? Gdyby to była średnia, wyniki byłyby najmniejsze, aby pasowały do ​​poszczególnych śladów danych.
statHacker
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.