Próbuję uzyskać intuicyjne zrozumienie działania analizy głównych składników (PCA) w przestrzeni przedmiotowej (podwójnej) .
Rozważ zestaw danych 2D z dwiema zmiennymi, i oraz punktami danych (macierz danych wynosi i zakłada się, że jest wyśrodkowana). Typowa prezentacja PCA polega na tym, że bierzemy pod uwagę punktów w , zapisujemy macierz kowariancji i znajdujemy jej wektory własne i wartości własne; pierwszy komputer odpowiada kierunkowi maksymalnej wariancji itp. Oto przykład z macierzą kowariancji . Czerwone linie pokazują wektory własne skalowane według pierwiastków kwadratowych odpowiednich wartości własnych.X n × 2 n R 2 2 × 2 C = ( 4 2 2 2 )
Zastanówmy się teraz, co dzieje się w przestrzeni tematycznej (tego terminu nauczyłem się od @ttnphns), znanej również jako dual space (termin używany w uczeniu maszynowym). Jest to wymiarowa przestrzeń, w której próbki naszych dwóch zmiennych (dwie kolumny ) tworzą dwa wektory i . Kwadratowa długość każdego wektora zmiennego jest równa jego wariancji, cosinus kąta między dwoma wektorami jest równy korelacji między nimi. Nawiasem mówiąc, ta reprezentacja jest bardzo standardowa w leczeniu regresji wielokrotnej. W moim przykładzie tak wygląda przestrzeń tematyczna (pokazuję tylko płaszczyznę 2D rozpiętą przez dwa wektory zmienne):X x 1 x 2
Główne składniki, będące liniowymi kombinacjami dwóch zmiennych, utworzą dwa wektory i w tej samej płaszczyźnie. Moje pytanie brzmi: jakie jest geometryczne rozumienie / intuicja sposobu tworzenia wektorów zmiennych składowych głównych przy użyciu oryginalnych wektorów zmiennych na takim wykresie? Biorąc pod uwagę x 1 i x 2 , jaka procedura geometryczna dałaby p 1 ?
Poniżej znajduje się moje częściowe zrozumienie tego.
Przede wszystkim mogę obliczyć główne komponenty / osie standardową metodą i wykreślić je na tej samej figurze:
Ponadto możemy zauważyć, że jest tak dobrana, że suma kwadratów odległości pomiędzy (niebieski wektory), a ich występy na p 1 jest minimalne; odległości te są błędami rekonstrukcji i są oznaczone czarnymi przerywanymi liniami. Odpowiednio, p 1 maksymalizuje sumę kwadratów długości obu rzutów. To w pełni określa p 1 i oczywiście jest całkowicie analogiczne do podobnego opisu w przestrzeni pierwotnej (patrz animacja w mojej odpowiedzi na Zrozumienie analizy głównych składowych, wektorów własnych i wartości własnych ). Zobacz także pierwszą część odpowiedzi @ ttnphns tutaj .
Nie jest to jednak wystarczająco geometryczne! Nie mówi mi, jak znaleźć takie i nie określa jego długości.
Domyślam się, że , x 2 , p 1 i leżą na jednej elipsie wyśrodkowanej na0,przy czym p 1 i p 2 są jej głównymi osiami. Oto jak to wygląda w moim przykładzie:
P1: Jak to udowodnić? Bezpośrednia demonstracja algebraiczna wydaje się bardzo nużąca; jak zobaczyć, że tak musi być?
Ale istnieje wiele różnych elips wyśrodkowanych na i przechodzących przez x 1 i x 2 :
P2: Co określa „poprawną” elipsę? Moje pierwsze przypuszczenie było takie, że jest to elipsa z najdłuższą możliwą osią główną; ale wydaje się to błędne (są elipsy z osią główną dowolnej długości).
Jeśli są odpowiedzi na pytania Q1 i Q2, chciałbym również wiedzieć, czy uogólniają się one na przypadek więcej niż dwóch zmiennych.
variable space (I borrowed this term from ttnphns)
- @amoeba, musisz się mylić. Zmienne jako wektory w (pierwotnie) przestrzeni n-wymiarowej nazywane są przestrzenią podmiotową (n obiektów jako osie „zdefiniowały” przestrzeń, podczas gdy zmienne p „obejmują” ją). Przeciwnie, przestrzeń zmienna jest wręcz przeciwna - tj. Zwykły wykres rozrzutu. W ten sposób określa się terminologię w statystykach wielowymiarowych. (Jeśli w uczeniu maszynowym jest inaczej - nie wiem tego - wtedy jest o wiele gorzej dla uczniów).
My guess is that x1, x2, p1, p2 all lie on one ellipse
Jaka może być tutaj heurystyczna pomoc z elipsy? Wątpię.