Zwykle używamy PCA jako techniki redukcji wymiarów dla danych, w których zakłada się, że przypadki są identyczne
Pytanie: Jakie są typowe niuanse w stosowaniu PCA w odniesieniu do zależnych danych innych niż iid? Jakie miłe / użyteczne właściwości PCA, które przechowują dane ID, są zagrożone (lub całkowicie utracone)?
Na przykład dane mogą być wielowymiarowymi szeregami czasowymi, w których to przypadku można oczekiwać autokorelacji lub autoregresyjnej warunkowej heteroskedastyczności (ARCH).
Kilka pokrewnych pytań dotyczących zastosowania PCA do danych szeregów czasowych zostało już wcześniej zadanych, np. 1 , 2 , 3 , 4 , ale szukam bardziej ogólnej i kompleksowej odpowiedzi (bez potrzeby obszerniejszego omawiania poszczególnych punktów).
Edycja: Jak zauważył @ttnphns, sama PCA nie jest analizą wnioskowania. Można jednak zainteresować się uogólnieniem działania PCA, tj. Skupieniem się na populacyjnym odpowiedniku próbki PCA. Np. Jak napisano w Nadler (2008) :
Zakładając, że podane dane są próbką skończoną i losową z (ogólnie nieznanego) rozkładu, ciekawym teoretycznym i praktycznym pytaniem jest relacja między wynikami próby PCA obliczonymi na podstawie danych skończonych a wynikami podstawowego modelu populacji.
Referencje:
- Nadler, Boaz. „Wyniki aproksymacji próbek skończonych do analizy głównych składników: podejście zaburzające macierz”. The Annals of Statistics (2008): 2791–2817.