Właściwości PCA dla obserwacji zależnych

Zwykle używamy PCA jako techniki redukcji wymiarów dla danych, w których zakłada się, że przypadki są identyczne

Pytanie: Jakie są typowe niuanse w stosowaniu PCA w odniesieniu do zależnych danych innych niż iid? Jakie miłe / użyteczne właściwości PCA, które przechowują dane ID, są zagrożone (lub całkowicie utracone)?

Na przykład dane mogą być wielowymiarowymi szeregami czasowymi, w których to przypadku można oczekiwać autokorelacji lub autoregresyjnej warunkowej heteroskedastyczności (ARCH).

Kilka pokrewnych pytań dotyczących zastosowania PCA do danych szeregów czasowych zostało już wcześniej zadanych, np. 1 , 2 , 3 , 4 , ale szukam bardziej ogólnej i kompleksowej odpowiedzi (bez potrzeby obszerniejszego omawiania poszczególnych punktów).

Edycja: Jak zauważył @ttnphns, sama PCA nie jest analizą wnioskowania. Można jednak zainteresować się uogólnieniem działania PCA, tj. Skupieniem się na populacyjnym odpowiedniku próbki PCA. Np. Jak napisano w Nadler (2008) :

Zakładając, że podane dane są próbką skończoną i losową z (ogólnie nieznanego) rozkładu, ciekawym teoretycznym i praktycznym pytaniem jest relacja między wynikami próby PCA obliczonymi na podstawie danych skończonych a wynikami podstawowego modelu populacji.

Referencje:

Nadler, Boaz. „Wyniki aproksymacji próbek skończonych do analizy głównych składników: podejście zaburzające macierz”. The Annals of Statistics (2008): 2791–2817.

— Richard Hardy
źródło

Tylko dla notatki. Sam PCA nie stanowi analizy wnioskowania. Jest to transformacja wielowymiarowego zestawu danych liczb; jego rdzeniem jest po prostu svd lub eigendecomposition. Dlatego nie zakłada założenia niezależności od obserwacji. Założenia pojawiają się, gdy używamy PCA jako narzędzia statystycznego do analizy próbek z populacji. Ale nie są to założenia PCA. Na przykład testowanie sferyczności w celu ustalenia, czy PCA jest uzasadnione w celu zmniejszenia danych, wymaga niezależności, a test może wyglądać jak test zakładający „wewnątrz PCA”, ale w rzeczywistości jest to test „zewnętrzny”.

— ttnphns

@ttnphns, bardzo dobre punkty, dziękuję. Jeśli widzisz dobry sposób na edycję mojego postu, nie krępuj się. Ja też o tym pomyślę.

— Richard Hardy,

Richard, twoje pytanie jest w porządku i ważne (+1). Być może wolałbym przeredagować to trochę w taki sposób, jak: „Zwykle używamy PCA jako redukcji wymiarów dla danych, w których zakłada się przypadki ... Jakie są typowe niuanse w stosowaniu PCA dla danych szeregów czasowych, w których przypadki (czas punkty) są zależne od opóźnienia ...? "

— ttnphns

@amoeba, prawda. Ale prawie nigdy nie przestajemy uzyskiwać obciążeń komputerów. W krokach, które często następują po PCA, czego powinniśmy być świadomi w non-iid'ness? Mam nadzieję, że odpowiedź może być lepsza niż pytanie (w obecnym sformułowaniu). Jeśli spojrzysz na to luźno / twórczo, być może mógłbyś wymyślić kilka dobrych punktów.

— Richard Hardy,

Zwykły PCA uwzględnia tylko asocjacje „poziome” (tj. Między kolumnami) i ignoruje „pionowe” (między przypadkami): macierz kowariancji kolumn jest taka sama, jeśli zmienisz kolejność spraw. To, czy można to nazwać „brakiem założeń dla szeregów przypadków” czy „założeniem dla niezależnych przypadków”, jest kwestią gustu. Założenie iid jest domyślne w analizie danych, dlatego metody, które po prostu nie zwracają szczególnej uwagi na kolejność spraw, takie jak PCA, można przypisać „cichemu wsparciu” dla założenia iid.

— ttnphns

Przypuszczalnie możesz dodać składnik czasu jako dodatkową cechę do punktów próbkowania, a teraz są one dostępne? Zasadniczo oryginalne punkty danych są zależne od czasu:

p (x_{i} ∣ t_{i}) \neq p (x_{i})

$p(\mathbf{x}_i \mid t_i) \ne p(\mathbf{x}_i)$

Ale jeśli zdefiniujemy , otrzymamy: $\mathbf{x}_i' = \{\mathbf{x}_i, t_i\}$

p (x_{i}^{'} ∣ t_{i}) = p (x_{i}^{'})

$p(\mathbf{x}'_i \mid t_i) = p(\mathbf{x}'_i)$

... a próbki danych są teraz wzajemnie niezależne.

W praktyce, uwzględniając czas jako cechę w każdym punkcie danych, PCA może spowodować, że jeden element po prostu wskaże wzdłuż osi cechy czasu. Ale jeśli jakieś funkcje są skorelowane z funkcją czasu, komponent może składać się z jednej lub więcej z tych funkcji, a także z funkcji czasu.

— Hugh Perkins
źródło

Dziękuję za odpowiedź. Byłby to bardzo szczególny przypadek, w którym czas wchodzi liniowo. Bardziej rozpowszechnionym zjawiskiem jest na przykład autokorelacja, w której sam czas nie odgrywa żadnej roli.

— Richard Hardy,

Dobra, widzę. Masz na myśli, że np. Przykład nie jest tylko funkcją niektórych parametrów , ale zależy również od ? Dlatego to Markow, biorąc i ? Czy możemy zatem dodać jako funkcję do PCA? (Nie mówię, że możemy lub nie mogę, po prostu naprawdę zastanawiam się nad problemem ...)

x_{t}

$x_t$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t}

$x_t$

x_{t - 1}

$x_{t-1}$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

— Hugh Perkins,

x_{t - 1}

$x_{t-1}$