Zrozumienie analizy głównych składników, wektorów własnych i wartości własnych


975

W dzisiejszej klasie rozpoznawania wzorców mój profesor mówił o PCA, wektorach własnych i wartościach własnych.

Zrozumiałem matematykę. Jeśli poproszę o znalezienie wartości własnych itp. Zrobię to poprawnie jak maszyna. Ale nie zrozumiałem tego. Nie zrozumiałem tego. Nie czułem tego.

Mocno wierzę w następujący cytat:

Tak naprawdę czegoś nie rozumiesz, chyba że możesz wyjaśnić to swojej babci. - Albert Einstein

Nie mogę wyjaśnić tych pojęć laikowi ani babci.

  1. Dlaczego PCA, wektory własne i wartości własne? Jaka była potrzeba tych koncepcji?
  2. Jak wytłumaczysz to laikowi?

95
Dobre pytanie. Zgadzam się również z cytatem. Wierzę, że w statystykach i matematyce jest wielu ludzi, którzy są bardzo inteligentni i potrafią głęboko wejść w swoją pracę, ale nie do końca rozumieją nad czym pracują. Albo tak, ale nie są w stanie wytłumaczyć tego innym. Robię wszystko, co w mojej mocy, aby udzielić tutaj odpowiedzi w prostym języku angielskim i zadaję pytania wymagające planowania angielskich odpowiedzi.
Neil McGuigan,

7
Pytanie zostało zadane na stronie Matematyki w lipcu, ale nie tak dobrze i nie uzyskało wielu odpowiedzi (co nie jest zaskakujące, biorąc pod uwagę inne podejście). math.stackexchange.com/questions/1146/…
whuber

6
Podobne do wyjaśnienia Zuura i in. W Analizie danych ekologicznych, gdzie mówią o rzutowaniu dłoni na rzutnik. Obracasz dłonią, aby rzut na ścianie wyglądał bardzo podobnie do tego, co Twoim zdaniem powinno wyglądać.
Roman Luštrik

12
To pytanie doprowadziło mnie do dobrej pracy, i choć uważam, że to świetny cytat, nie pochodzi od Einsteina. Jest to częste błędne przypisanie, a bardziej prawdopodobnym oryginalnym cytatem jest prawdopodobnie ten z Ernesta Rutherforda, który powiedział: „Jeśli nie możesz wyjaśnić swojej fizyki barmance, prawdopodobnie nie jest to bardzo dobra fizyka”. Wszystkie te same podziękowania za rozpoczęcie tego wątku.
gavaletz

23
Alice Calaprice, Ostateczny cytat Einsteina , Princeton UP 2011 oznacza cytat tutaj jako jeden z wielu „Prawdopodobnie nie przez Einsteina”. Patrz str.482.
Nick Cox,

Odpowiedzi:


1292

Wyobraź sobie dużą rodzinną kolację, na której wszyscy zaczynają pytać o PCA. Najpierw wytłumacz to swojej prababce; tobie babciu; potem do twojej matki; następnie do twojego małżonka; wreszcie do twojej córki (która jest matematykiem). Za każdym razem kolejna osoba jest mniej laikiem. Oto jak może przebiegać rozmowa.

Prababcia: Słyszałem, że studiujesz „Pee-See-Ay”. Zastanawiam się, co to jest ...

Ty: Ach, to tylko metoda podsumowania niektórych danych. Słuchaj, mamy tu na stole kilka butelek wina. Każde wino możemy opisać jego kolorem, mocą, wiekiem itd. (Zobacz tę bardzo ładną wizualizację pobranych stąd właściwości wina ). Możemy skomponować całą listę różnych cech każdego wina w naszej piwnicy. Ale wiele z nich będzie mierzyć powiązane właściwości, a zatem będą zbędne. Jeśli tak, powinniśmy być w stanie podsumować każde wino o mniejszej liczbie cech! To właśnie robi PCA.

Babcia: To interesujące! Więc ta rzecz PCA sprawdza, jakie cechy są zbędne i odrzuca je?

Ty: Doskonałe pytanie, babciu! Nie, PCA nie wybiera niektórych cech i odrzuca pozostałe. Zamiast tego buduje kilka nowych cech, które okazują się dobrze podsumowywać naszą listę win. Oczywiście te nowe cechy są budowane przy użyciu starych; na przykład nową cechę można obliczyć jako wiek wina minus poziom kwasowości wina lub inną podobną kombinację (nazywamy to kombinacjami liniowymi ).

W rzeczywistości PCA znajduje najlepsze możliwe cechy, które podsumowują listę win, a także tylko możliwe (spośród wszystkich możliwych kombinacji liniowych). Dlatego jest tak przydatny.

Matka: Hmmm, to z pewnością brzmi dobrze, ale nie jestem pewien, czy rozumiem. Co właściwie masz na myśli mówiąc, że te nowe cechy PCA „podsumowują” listę win?

Ty: Chyba mogę udzielić dwóch różnych odpowiedzi na to pytanie. Pierwszą odpowiedzią jest to, że szukasz niektórych właściwości (cech) wina, które znacznie różnią się w zależności od wina. Rzeczywiście, wyobraź sobie, że wymyśliłeś taką samą właściwość dla większości win. To nie byłoby bardzo przydatne, prawda? Wina są bardzo różne, ale dzięki nowej nieruchomości wszystkie wyglądają tak samo! To z pewnością byłoby złe podsumowanie. Zamiast tego PCA szuka właściwości, które wykazują możliwie największą różnorodność win.

Drugą odpowiedzią jest to, że szukasz właściwości, które pozwoliłyby Ci przewidzieć lub „zrekonstruować” oryginalne właściwości wina. Ponownie, wyobraź sobie, że wymyśliłeś właściwość, która nie ma związku z pierwotnymi cechami; jeśli korzystasz tylko z tej nowej właściwości, nie ma możliwości odtworzenia oryginalnych! To znowu byłoby złe podsumowanie. Dlatego PCA szuka właściwości, które pozwolą jak najlepiej odtworzyć pierwotne cechy.

Niespodziewanie okazuje się, że te dwa cele są równoważne, więc PCA może zabić dwa ptaki jednym kamieniem.

Małżonek: Ale kochanie, te dwa „cele” PCA brzmią tak inaczej! Dlaczego mieliby być równoważni?

Ty: Hmmm. Może powinienem zrobić mały rysunek (bierze serwetkę i zaczyna pisać) . Wybierzmy dwie cechy wina, być może ciemność wina i zawartość alkoholu - nie wiem, czy są ze sobą skorelowane, ale wyobraźmy sobie, że są. Oto jak może wyglądać wykres rozrzutu różnych win:

Przykładowe dane PCA

Każda kropka w tej „chmurze wina” pokazuje jedno konkretne wino. Widać, że te dwie właściwości ( x i y na tym rysunku) są skorelowane. Nową właściwość można zbudować, rysując linię przez środek tej chmury wina i rzutując wszystkie punkty na tę linię. Tę nową właściwość otrzyma kombinacja liniowa w1x+w2y , gdzie każda linia odpowiada niektórym konkretnym wartościom w1 i w2 .

Teraz spójrz tutaj bardzo uważnie - oto jak wyglądają te rzuty dla różnych linii (czerwone kropki są rzutami niebieskich kropek):

Animacja PCA: błąd wariancji i rekonstrukcji

Jak powiedziałem wcześniej, PCA znajdzie „najlepszą” linię według dwóch różnych kryteriów tego, co jest „najlepsze”. Po pierwsze, zmienność wartości wzdłuż tej linii powinna być maksymalna. Zwróć uwagę na to, jak zmienia się „rozrzut” (nazywamy to „wariancją”) czerwonych kropek podczas obracania się linii; widzisz, kiedy osiągnie maksimum? Po drugie, jeśli zrekonstruujemy dwie pierwotne cechy (położenie niebieskiej kropki) z nowej (położenie czerwonej kropki), błąd rekonstrukcji zostanie podany na podstawie długości łączącej czerwonej linii. Obserwuj, jak zmienia się długość tych czerwonych linii, gdy linia się obraca; widzisz, kiedy całkowita długość osiągnie minimum?

Jeśli wpatrzysz się w tę animację przez jakiś czas, zauważysz, że „maksymalna wariancja” i „minimalny błąd” są osiągane w tym samym czasie, a mianowicie, gdy linia wskazuje magenta tyka, które zaznaczyłem po obu stronach chmury wina . Ta linia odpowiada nowej właściwości wina, która zostanie zbudowana przez PCA.

Nawiasem mówiąc, PCA oznacza „analizę głównego składnika”, a ta nowa właściwość nazywa się „pierwszym głównym składnikiem”. I zamiast mówić „właściwość” lub „charakterystyczny” zwykle mówimy „cecha” lub „zmienna”.

Córka: Bardzo miło, tato! Wydaje mi się, że rozumiem, dlaczego te dwa cele dają taki sam wynik: jest to zasadniczo spowodowane twierdzeniem Pitagorasa, prawda? W każdym razie słyszałem, że PCA jest w jakiś sposób związany z wektorami własnymi i wartościami własnymi; gdzie oni są na tym zdjęciu?

Ty: genialna obserwacja. Matematycznie rozproszenie czerwonych kropek mierzy się jako średnią kwadratową odległość od środka chmury wina do każdej czerwonej kropki; jak wiecie, nazywa się to wariancją . Z drugiej strony całkowity błąd rekonstrukcji mierzy się jako średnią kwadratową długość odpowiadających czerwonych linii. Ale ponieważ kąt między czerwonymi liniami a czarną linią wynosi zawsze 90, suma tych dwóch ilości jest równa średniej odległości do kwadratu między środkiem chmury wina a każdą niebieską kropką; to jest właśnie twierdzenie Pitagorasa. Oczywiście ta średnia odległość nie zależy od orientacji czarnej linii, więc im wyższa wariancja, tym mniejszy błąd (ponieważ ich suma jest stała). Ten falisty argument można sprecyzować ( patrz tutaj ).

Nawiasem mówiąc, możesz sobie wyobrazić, że czarna linia jest solidnym prętem, a każda czerwona linia jest sprężyną. Energia sprężyny jest proporcjonalna do jej kwadratowej długości (jest to znane w fizyce jako prawo Hooke'a), więc pręt zorientuje się tak, aby zminimalizować sumę tych kwadratowych odległości. Wykonałem symulację tego, jak to będzie wyglądać, w obecności jakiegoś lepkiego tarcia:

Animacja PCA: wahadło

W odniesieniu do wektorów własnych i wartości własnych. Wiesz, czym jest macierz kowariancji ; w moim przykładzie jest to macierz 2×2 podana przez

(1.070.630.630.64).
Oznacza to, że wariancja zmiennej x wynosi 1.07 , wariancja zmiennej y wynosi 0.64 , a kowariancja między nimi wynosi 0.63 . Ponieważ jest to kwadratowa macierz symetryczna, można ją diagonalizować, wybierając nowy ortogonalny układ współrzędnych podany przez jego wektory własne (nawiasem mówiąc, nazywa się to twierdzeniem spektralnym); odpowiednie wartości własne zostaną wówczas umieszczone na przekątnej. W tym nowym układzie współrzędnych macierz kowariancji jest ukośna i wygląda następująco:
(1.52000.19),
co oznacza, że ​​korelacja między punktami wynosi teraz zero. Staje się jasne, że wariancję każdej projekcji da średnia ważona wartości własnych (tutaj szkicuję tylko intuicję). W rezultacie maksymalna możliwa wariancja ( 1.52 ) zostanie osiągnięta, jeśli po prostu weźmiemy rzut na pierwszą oś współrzędnych. Wynika z tego, że kierunek pierwszego głównego składnika jest podany przez pierwszy wektor własny macierzy kowariancji. ( Więcej informacji tutaj. )

Widać to również na obracającej się figurze: jest tam szara linia prostopadła do czarnej; razem tworzą obracającą się ramkę współrzędnych. Spróbuj zauważyć, kiedy niebieskie kropki stają się nieskorelowane w tej obracającej się ramce. Odpowiedź znowu jest taka, że ​​dzieje się to dokładnie wtedy, gdy czarna linia wskazuje na magenta tyka. Teraz mogę powiedzieć, jak je znalazłem: zaznaczają kierunek pierwszego wektora własnego macierzy kowariancji, który w tym przypadku jest równy (0.81,0.58) .


Na popularne życzenie udostępniłem kod Matlab, aby utworzyć powyższe animacje .


79
+1 Ładna opowieść i ilustracje. ...then to your mother; then to your wife; finally, to your daughter (who is a mathematician)...Chciałbym kontynuować: i po obiedzie - do siebie. I tu nagle utknąłeś ...
ttnphns

68
Absolutnie uwielbiam ilustracje, które tworzysz dla tych odpowiedzi.
shadowtalker

57
Zwykle przeglądam Cross Validated, aby przeczytać o różnych rzeczach, ale nigdy nie miałem powodu, aby założyć konto ... głównie dlatego, że pytania tutaj są poza zasięgiem mojej wiedzy i naprawdę nie mogę na nie odpowiedzieć. Zwykle jestem tylko na StackOverflow i jestem w sieci StackExchange od około roku. Postanowiłem jednak dziś założyć konto głównie po to, by głosować na Twój post. To chyba najlepsza ekspozycja PCA, jaką kiedykolwiek czytałem i czytałem wiele. Dziękuję za ten wspaniały post - doskonałą narrację, grafikę i jest tak łatwy do odczytania! +1
rayryeng

14
Uwaga dla mnie: moja odpowiedź ma obecnie 100 głosów pozytywnych, odpowiedź JDLonga ma 220 głosów pozytywnych; jeśli założymy stały wzrost, to mój ma 100 głosów pozytywnych rocznie, a jego 40 głosów pozytywnych rocznie. A raczej 55 / rok, jeśli obliczono, ponieważ minęło 100 głosów pozytywnych [otrzymał złotą odznakę] w styczniu 2014 r. Oznacza to, że nadrobię zaległości za 2,5--3 lata, pod koniec 2018 r. Zobaczmy :-)
Amoeba

3
Uwaga dla mnie cd .: Muszę zaktualizować swoje oszacowanie. Miesiąc później ta odpowiedź uzyskała 18 głosów pozytywnych wobec 5 dla JDLong. To wskazuje, że mogę nadrobić zaległości za mniej niż rok. Co ciekawe, 5 / miesiąc jest bardzo zbliżony do mojego powyższego szacunku na 55 / rok, ale 18 / miesiąc to ponad dwa razy więcej niż 100 / rok. Ponieważ moja odpowiedź się nie zmieniła, wydaje się, że dotarcie na drugie miejsce przyspieszyło głosowanie (prawdopodobnie ze względu na zwiększoną widoczność).
ameba

376

Rękopis „Samouczek na temat analizy głównych składników” autorstwa Lindsay I Smith naprawdę pomógł mi w poznaniu PCA. Myślę, że wciąż jest to zbyt skomplikowane, by wyjaśnić to twojej babci, ale nie jest złe. Powinieneś pominąć kilka pierwszych bitów przy obliczaniu eigenów itp. Skocz do przykładu w rozdziale 3 i spójrz na wykresy.

Mam kilka przykładów, w których przepracowałem kilka przykładów zabawek, dzięki czemu mogłem zrozumieć regresję liniową PCA vs. OLS. Spróbuję je wykopać i opublikować.

edytuj: Naprawdę nie pytałeś o różnicę między zwykłymi najmniejszymi kwadratami (OLS) a PCA, ale odkąd sporządziłem notatki, napisałem o tym blog . Bardzo krótka wersja to OLS y ~ x minimalizuje błąd prostopadły do ​​niezależnej osi w ten sposób (żółte linie to przykłady dwóch błędów):

alternatywny tekst

Jeśli regresujesz x ~ y (w przeciwieństwie do y ~ x w pierwszym przykładzie), zminimalizuje to błąd:

alternatywny tekst

a PCA skutecznie minimalizuje błąd ortogonalny do samego modelu, tak jak:

alternatywny tekst

Co ważniejsze, jak powiedzieli inni, w sytuacji, gdy masz CAŁĄ WIĄZKĘ zmiennych niezależnych, PCA pomaga dowiedzieć się, które kombinacje liniowe tych zmiennych są najważniejsze. Powyższe przykłady pomagają zobrazować, jak wygląda pierwszy główny składnik w naprawdę prostym przypadku.

W moim poście na blogu mam kod R do tworzenia powyższych wykresów i do obliczania pierwszego głównego składnika. Warto budować swoją intuicję wokół PCA. Zwykle nie posiadam niczego, dopóki nie napiszę kodu, który to powiela. 


9
Dobry telefon do rękopisu Lindsay I Smith - przeczytaj go już dziś; bardzo pomocny.
Stedy

7
Czy PCA jest równoważne Total Least Squares, jeśli optymalizuje ortogonalne odległości od punktów do linii dopasowania?
Marcin

3
@Marcin - jest to poprawne. Można ponownie fraza PCA jako znalezienia najlepszego Ranking oszacowania ( 1 m p ) oryginalnych p zmiennych ( x í jm1mpp ), z funkcji celu Ď n I = 1 Σ p j = 1 ( x I J - x i j ) 2 . Wybór liczby komputerów jest równoznaczny z wyborem rangi prognoz. x^iji=1,,nj=1,,pi=1nj=1p(xijx^ij)2
probabilislogiczny

3
Mały błąd matematyczny u Smitha: „wszystkie wektory własne macierzy są prostopadłe ... bez względu na to, ile wymiarów masz” dotyczy tylko macierzy symetrycznych, oto jeden z nimi w odległości 45 stopni . Smith zauważa wcześniej symetrię macierzy kowariancji, ale nie implikację - symetria zapewnia nprostopadłe wektory własne. W rzeczywistości nie wszystkie rzeczywiste n x nmacierze mają nawet rzeczywiste wartości własne (np. {{0,1}, {- 1,0}}), a tych, które je mają, nie wszystkie mają nniezależne wektory własne (np. {{1,1}, {0 , 1}})! Symetria ma znaczenie!
Silverfish,

8
Jako matematyk uczący wektorów własnych, muszę się kulić, czytając ten rękopis Lindsay Smith. „... wynikowy wektor jest całkowitą wielokrotnością oryginału ...” - jaki jest sens wspominania o liczbie całkowitej ? Wektorem własnym macierzy A jest dowolny wektor X, taki że AX jest wielokrotnością X. Nie jest wielokrotnością całkowitą, tylko wielokrotnością! Wielokrotność nie będąca liczbą całkowitą również jest w porządku! Jezu, dlaczego tworzysz niepotrzebne zamieszanie, gdzie ich nie ma?
Dmitri Zaitsev

144

Zróbmy najpierw (2). PCA dopasowuje elipsoidę do danych. Elipsoida jest wielowymiarowym uogólnieniem zniekształconych sferycznych kształtów, takich jak cygara, naleśniki i jajka. Wszystkie są starannie opisane kierunkami i długościami ich głównych (pół) osi, takich jak oś cygara lub jajka lub płaszczyzna naleśnika. Bez względu na to, jak obrócona jest elipsoida, wektory własne wskazują w tych głównych kierunkach, a wartości własne podają długości. Najmniejsze wartości własne odpowiadają najcieńszym kierunkom o najmniejszej zmienności, więc zignorowanie ich (które zwali je płasko) powoduje utratę stosunkowo niewielkiej ilości informacji: to jest PCA.

(1) Oprócz uproszczenia (powyżej), potrzebujemy dokładnego opisu, wizualizacji i wglądu. Możliwość zmniejszenia wymiarów jest dobrą rzeczą: ułatwia opisywanie danych i, jeśli mamy szczęście, zmniejszyć je do trzech lub mniej, pozwala nam narysować obraz. Czasami możemy nawet znaleźć użyteczne sposoby interpretacji kombinacji danych reprezentowanych przez współrzędne na obrazie, które mogą zapewnić wgląd w wspólne zachowanie zmiennych.


Rysunek pokazuje niektóre chmury po punktów każda, wraz z elipsoidami zawierającymi 50% każdej chmury i osiami wyrównanymi z głównymi kierunkami. W pierwszym rzędzie chmury mają zasadniczo jeden główny składnik, stanowiący 95% całej wariancji: są to kształty cygar. W drugim rzędzie chmury mają zasadniczo dwa główne składniki, jeden około dwa razy większy od drugiego, razem stanowiący 95% całej wariancji: są to kształty naleśników. W trzecim rzędzie wszystkie trzy główne elementy są spore: są to kształty jaj.200

Ryciny

Każda chmura punktów 3D, która jest „spójna” w tym sensie, że nie wykazuje skupisk, wąsów lub wartości odstających, będzie wyglądać jak jedna z nich. Jakakolwiek chmura punktów 3D w ogóle - pod warunkiem, że nie wszystkie punkty są zbieżne - może zostać opisana przez jedną z tych liczb jako początkowy punkt wyjścia do identyfikacji dalszego grupowania lub wzorcowania.

Intuicyję, którą rozwijasz na podstawie rozważania takich konfiguracji, można zastosować do wyższych wymiarów, nawet jeśli wizualizacja tych wymiarów jest trudna lub niemożliwa.


2
Aby dodać do tego, gdy masz (prawie) równe półosi (tj. Elipsoida ma (prawie) okrągły wycinek), oznacza to, że dwa fragmenty danych odpowiadające tym osiom mają (prawie) zależność; można mówić o głównych osiach elipsy, ale okręgi mają tylko jeden promień. :)
JM nie jest statystykiem

6
Byłbym tu bardziej ostrożny, JM Po pierwsze, aby wyjaśnić, przez „prawie zależność” należy rozumieć „prawie niezależny”. Byłoby to prawdą w przypadku wariacji wielonormalnej, ale w wielu przypadkach PCA jest przeprowadzane z danymi, które są wyraźnie nienormalne. Rzeczywiście, analizy skupień, które następują po niektórych obliczeniach PCA, można postrzegać jako jeden ze sposobów oceny silnej formy nienormalności. Matematycznie, koła nie mają główne osie, ale oni po prostu nie są jednoznacznie określona: można wybrać dowolną prostopadły parę promieni jako swoich głównych osiach.
whuber

1
Tak, przepraszam, przypuszczam, że „główne osie koła są nieokreślone” byłoby lepszym sposobem na określenie tego.
JM nie jest statystykiem

2
Bardzo miła interpretacja! Próbujesz to lepiej zrozumieć ... gdzie w matematyce PCA widać, że „PCA pasuje elipsoidą do danych”?
Kochede

4
@Kochede Elipsoida jest konturem formy kwadratowej. Macierz kowariancji jest formą kwadratową. PCA identyfikuje swoje osie i ich długości.
whuber

106

Hmm, tutaj jest całkowicie niematematyczne podejście do PCA ...

Wyobraź sobie, że właśnie otworzyłeś sklep z cydrami. Masz 50 odmian cydru i chcesz dowiedzieć się, jak rozdzielić je na półki, aby cydry o podobnym smaku były umieszczane na tej samej półce. Cydr ma wiele różnych smaków i tekstur - słodycz, cierpkość, gorycz, drożdże, owocowość, klarowność, musowanie itp. Tak więc, aby podzielić butelki na kategorie, odpowiedz na dwa pytania:

1) Jakie cechy są najważniejsze dla identyfikacji grup cydru? np. czy klasyfikacja oparta na słodkości ułatwia grupowanie cydrów w grupy o podobnym smaku niż klasyfikacja oparta na owocowości?

2) Czy możemy zmniejszyć naszą listę zmiennych, łącząc niektóre z nich? np. czy rzeczywiście istnieje zmienna będąca połączeniem „drożdży, klarowności i musowania” i która stanowi naprawdę dobrą skalę do klasyfikowania odmian?

Zasadniczo to robi PCA. Główne składniki to zmienne, które pożytecznie wyjaśniają zmienność w zbiorze danych - w tym przypadku użytecznie rozróżniają grupy. Każdy główny składnik jest jedną z oryginalnych zmiennych objaśniających lub kombinacją niektórych oryginalnych zmiennych objaśniających.


4
Co z wektorami własnymi i wartościami własnymi?
Ηλίας

3
Okay: Wartość własna powiązana z każdym głównym składnikiem mówi o tym, jak duża zmienność w zestawie danych wyjaśnia (w moim przykładzie, jak wyraźnie dzieli on butelki na grupy). Zazwyczaj są one wyrażane jako procent całkowitej zmienności w zbiorze danych. Jeśli chodzi o wektory własne, to właśnie tam, jak powiedziały pazury, podążam za wynikami analizy jak maszyna;) W mojej głowie są one związane z tym, jak obracasz telefon Vince'a do jego „najlepszej” orientacji, ale to może nie być właściwy sposób, aby o nich myśleć.
Freya Harrison

17
Wektory własne to tylko liniowe kombinacje oryginalnych zmiennych (w prostej lub obróconej przestrzeni czynników); opisali, w jaki sposób zmienne „przyczyniają się” do każdej osi czynnika. Zasadniczo pomyśl o PCA jako o sposobie konstruowania nowych osi wskazujących kierunki maksymalnej wariancji (w pierwotnej przestrzeni zmiennych), wyrażonej przez wartość własną, oraz w jaki sposób wkład zmiennych jest ważony lub liniowo przekształcany w tej nowej przestrzeni.
chl

jaka byłaby macierz kowariancji tego problemu? co mówi nam o zmiennych (słodycz, cierpkość, gorycz, drożdże, owocowość, klarowność, musowanie itp.)?
JustCurious

1
Nie wiem, co to takiego o statystykach i napojach alkoholowych, ale Whisky Classified robi dokładnie to w przypadku szkockich whisky ...
nekomatic

96

Odpowiedziałbym „w kategoriach laika”, mówiąc, że PCA dąży do dopasowania linii prostych do punktów danych (wszyscy wiedzą, co to jest linia prosta). Te proste linie nazywamy „głównymi składnikami”. Jest tyle podstawowych składników, ile zmiennych. Pierwszym głównym składnikiem jest najlepsza prosta, jaką można dopasować do danych. Drugi główny składnik to najlepsza prosta, jaką można dopasować do błędów z pierwszego głównego elementu. Trzeci główny element to najlepsza prosta, jaką można dopasować do błędów z pierwszego i drugiego głównego elementu itp. Itp.

Jeśli ktoś zapyta, co rozumiesz przez „najlepszy” lub „błąd”, oznacza to, że nie jest on „laikiem”, więc możesz przejść do bardziej technicznych szczegółów, takich jak błędy prostopadłe, nie wiem, gdzie jest błąd kierunek x lub y, więcej niż 2 lub 3 wymiary itp. Ponadto, jeśli unikniesz odniesienia się do regresji OLS (której „laik” prawdopodobnie również nie zrozumie), wyjaśnienie jest łatwiejsze.

Wektory własne i wartości własne nie są potrzebnymi pojęciami per se, raczej były to pojęcia matematyczne, które już istniały. Kiedy rozwiązujesz matematyczny problem PCA, kończy się to równoważeniem znalezienia wartości własnych i wektorów własnych macierzy kowariancji.


8
+1, to jest naprawdę w „świeckich terminach” i wiem, że możesz wyprowadzić to bardzo rygorystycznie, jeśli chcesz!
gung

2
Najlepsza jak dotąd odpowiedź, powiedziałbym. I często używam PCA.
a11msp

2
Wow - to naprawdę świetne i proste wytłumaczenie! Dziękuję Ci!
Nick

52

Mogę dać ci moje własne wyjaśnienie / dowód PCA, które moim zdaniem jest naprawdę proste i eleganckie i nie wymaga niczego poza podstawową znajomością algebry liniowej. Wyszło dość długo, ponieważ chciałem pisać prostym, dostępnym językiem.

Mnn

βββi=1Mxiμ2μ0xi=xiμi=1Mxi2

x=αv+wv,wγvγγx=αv

vαvxiαvxi,v/v2vxivxi,v

0

vvSvSoSvSoSo=Sv=0

0

i=1M(xiv)2=i=1MvTxiTxiv=vT(i=1MxiTxi)v.

XvvTXvX

Xe1,e2,,enλ1,,λnλ1λ2,λ3λ

vTXvei

eiTXei=eiT(λiei)=λi(ei2)2=λi.

λ1e1vv=i=1neiv,eii=1nv,ei2=1βi=v,ei

vTXvvei

(i=1nβiei)TX(i=1nβiei)=(i=1nβiei)(i=1nλiβiei)=i=1nλi(βi)2(ei2)2.

vTXv=i=1nλiβi2βi21

Oznacza to, że wariancja projekcji jest średnią ważoną wartości własnych. Z pewnością zawsze jest to mniej niż największa wartość własna, dlatego właśnie powinien być naszym wyborem pierwszego wektora PCA.

lin(e2,e3,,en)e2

i=1kλi/i=1nλi

kkv1,,vk

j=1ki=1nλiβij2=i=1nλiγi
γi=j=1kβij2.

eiv1,,vku1,,unkei=j=1kβijvj+j=1nkθjei,ujei2=1j=1kβij2+j=1nkθj2=1γi1i

i=1nλiγiγi1i=1nγi=ki=1kλik


2
+1 Bardzo ładna odpowiedź! Nie przeczytałem go jeszcze całkowicie, ale twoja odpowiedź jest taka, jakiej szukałem. Wszystkie kroki wyjaśnione =)
jjepsuomi

9
Pokaż mi laika, który zna podstawową algebrę liniową, a pokażę ci licencjat z matematyki.
Prawdopodobieństwo

xiαvxi,v/v2xi,v/v

1
Myślę, że jest to zdecydowanie najlepsze wytłumaczenie PCA, jakie kiedykolwiek widziałem. Dziękuję Ci.
Nimitz14,

1
To moje ulubione wyjaśnienie, które pokazuje również, dlaczego wektory własne maksymalizują wariancję.
Romwell

47

Dobra, spróbuję. Kilka miesięcy temu przekopałem się przez sporą literaturę, by znaleźć intuicyjne wyjaśnienie, które mógłbym wyjaśnić statystyce. Uważam, że pochodne wykorzystujące mnożniki Lagrange'a są najbardziej intuicyjne.

Załóżmy, że mamy dane o dużych wymiarach - powiedzmy 30 pomiarów wykonanych na owadzie. Błędy mają różne genotypy i nieco inne cechy fizyczne w niektórych z tych wymiarów, ale przy tak dużych danych wymiarowych trudno jest stwierdzić, które owady należą do której grupy.

PCA to technika zmniejszania wymiarów poprzez:

  1. Biorąc liniowe kombinacje oryginalnych zmiennych.
  2. Każda kombinacja liniowa wyjaśnia największą wariancję danych, jaką może.
  3. Każda kombinacja liniowa jest nieskorelowana z innymi

Lub, w kategoriach matematycznych:

  1. Yj=ajx
  2. k>jV(Yk)<V(Yj)
  3. akaj=0

Znalezienie kombinacji liniowych spełniających te ograniczenia prowadzi nas do wartości własnych. Dlaczego?

Polecam sprawdzenie książki An Introduction to Multivariate Data Analysis dla pełnego wyprowadzenia (s. 50), ale podstawową ideą są kolejne problemy z optymalizacją (maksymalizacja wariancji) ograniczone tak, że a'a = 1 dla współczynników a (aby uniknąć przypadku kiedy wariancja może być nieskończona) i ograniczona, aby upewnić się, że współczynniki są ortogonalne.

Prowadzi to do optymalizacji za pomocą mnożników Lagrange'a, co z kolei pokazuje, dlaczego stosowane są wartości własne. Jestem zbyt leniwy, aby go wpisać (przepraszam!), Ale ten plik PDF przechodzi od tego momentu całkiem dobrze.

Nigdy nie próbowałbym tego wyjaśnić mojej babci, ale gdybym musiał ogólnie mówić o technikach zmniejszania wymiarów, wskazałbym ten trywialny przykład projekcji (nie PCA). Załóżmy, że masz bardzo złożony telefon Calder. Niektóre punkty w trójwymiarowej przestrzeni są blisko siebie, inne nie. Jeśli zawiesimy tę komórkę pod sufitem i oświetlijemy ją pod jednym kątem, otrzymamy rzut na płaszczyznę niższego wymiaru (ściana 2D). Teraz, jeśli ten telefon komórkowy jest głównie szeroki w jednym kierunku, ale chudy w drugim kierunku, możemy go obrócić, aby uzyskać projekcje różniące się użytecznością. Intuicyjnie chudy kształt w jednym wymiarze rzutowany na ścianę jest mniej przydatny - wszystkie cienie nakładają się na siebie i nie dają nam wielu informacji. Jeśli jednak go obrócimy, aby światło świeciło na szeroką stronę, uzyskujemy lepszy obraz danych o zmniejszonych wymiarach - punkty są bardziej rozłożone. Często tego chcemy. Myślę, że moja babcia mogła to zrozumieć :-)


6
To bardzo laik ;-)

2
To trochę math, ale najlepszym sposobem na zrozumienie czegoś jest wyprowadzenie tego.
Vince

29
Masz wyjątkowo dobrze wykształconą babcię :-).
whuber

7
podoba mi się wyjaśnienie ze światłem świecącym na trójwymiarowej strukturze
Neil McGuigan

(+1) Wszystkie są świetne odpowiedzi, ale to też bym dał.
Digio,

37

Starając się być nietechnicznym ... Wyobraź sobie, że masz wielowymiarowe dane, wielowymiarową chmurę punktów. Kiedy obliczasz macierz kowariancji tych, które faktycznie (a) wyśrodkowujesz chmurę, tj. Podajesz początek jako średnią wielowymiarową, osie układu współrzędnych przecinają się teraz w środku chmury, (b) szyfrują informacje o kształcie chmury i jak jest zorientowany w przestrzeni za pomocą wpisów wariancji-kowariancji. Tak więc większość ważnych informacji o kształcie danych jako całości jest przechowywana w macierzy kowariancji.

Następnie dokonujesz rozkładu własnego martrixa i uzyskujesz listę wartości własnych i odpowiadającą liczbę wektorów własnych. Teraz pierwszym głównym składnikiem jest nowa, ukryta zmienna, która może być wyświetlana jako oś przechodząca przez początek i zorientowana wzdłuż kierunku maksymalnej wariancji (grubości) chmury. Wariancja wzdłuż tej osi, tj. Wariancja współrzędnych wszystkich punktów na niej, wynosipierwsza wartość własna i orientacja osi w przestrzeni odniesionej do pierwotnych osi (zmiennych) jest zdefiniowana przez pierwszy wektor własny: jej wpisy to cosinusy między nią a tymi oryginalnymi osiami. Wyżej wymienione współrzędne punktów danych pierwszego komponentu to 1. główne wartości komponentu lub wyniki komponentu; są one obliczane jako iloczyn (wyśrodkowanej) macierzy danych i wektora własnego.

„Po” 1. pr. składnik został zmierzony, to znaczy „usunięty” z chmury wraz z całą wariancją, którą uwzględnił, a wymiar chmury spada o jeden. Następnie wszystko powtarza się z drugą wartością własną i drugim wektorem własnym - 2. pr. składnik jest rejestrowany, a następnie „usuwany”. Itp.

Zatem jeszcze raz: wektory własne są cosinusami kierunku dla głównych składników, podczas gdy wartości własne są wielkością (wariancją) w głównych składnikach. Suma wszystkich wartości własnych jest równa sumie wariancji znajdujących się na przekątnej macierzy wariancji-kowariancji. Jeśli przeniesiesz „magnitudinalną” informację przechowywaną w wartościach własnych do wektorów własnych, aby dodać ją do przechowywanych w niej „orientacyjnych” informacji, otrzymasz tak zwane ładunki głównych składników ; ładunki te - ponieważ przenoszą oba rodzaje informacji - są kowariancjami między pierwotnymi zmiennymi a głównymi składnikami.

Później PS szczególnie chcę tutaj dwukrotnie podkreślić różnicę terminologiczną między wektorami własnymi a ładunkami . Wiele osób i niektóre pakiety (w tym niektóre R) bezczelnie używają tych dwóch terminów zamiennie. Jest to zła praktyka, ponieważ przedmioty i ich znaczenie są różne. Wektory własne to cosinusy kierunku, kąt ortogonalnego „obrotu”, który wynosi PCA. Ładunki są wektorami własnymi zaszczepionymi informacją o zmienności lub wielkości obróconych danych. Obciążenia są współczynnikami powiązania między składnikami i zmiennymi i są bezpośrednio porównywalne ze współczynnikami powiązania obliczonymi między zmiennymi - kowariancje, korelacje lub inne produkty skalarne1). Wektory własne to współczynniki do przewidywania zmiennych na podstawie wyników surowych składników. Obciążenia są współczynnikami do przewidywania zmiennych za pomocą skalowanych (znormalizowanych) ocen składowych (nic dziwnego: obciążenia mają precyzyjne informacje na temat zmienności, w związku z czym użyte składniki muszą zostać jej pozbawione). Kolejnym powodem, dla którego nie należy mieszać wektorów własnych i ładunków, jest to, że niektóre inne techniki redukcji wymiarów oprócz PCA - takie jak niektóre formy analizy czynnikowej - obliczają ładunki bezpośrednio, omijając wektory własne. Wektory własne są produktem rozkładu własnego lub pojedynczej wartości; niektóre formy analizy czynnikowej nie wykorzystują tych rozkładów i dochodzą do obciążeń na odwrót. Wreszcie, to ładunki, a nie wektory własne, za pomocą których interpretujesz składniki lub czynniki (jeśli musisz je zinterpretować). Ładowanie polega na udziale składnika w zmiennej: w PCA (lub analizie czynnikowej) składnik / czynnik ładuje się na zmienną, a nie odwrotnie. W kompleksowych wynikach PCA należy zgłaszać zarówno wektory własne, jak i obciążenia, jak pokazano nptutaj lub tutaj .

Zobacz także o ładunkach vs wektorach własnych.


1


@amoeba, nie nalegam i możesz użyć dowolnej terminologii, do której jesteś przyzwyczajony. Wyjaśniłem jasno, dlaczego uważam, że terminy „ładunki” i „wektory własne” lepiej jest oddzielić. Podążam za klasyczną tradycją, jak w Harmanie. Współczesna analiza czynnikowa, jeśli tylko dobrze pamiętam tradycję.
ttnphns

(Cd.) W każdym razie wiesz, że termin „ładunki”, choć jest naprawdę dość wątpliwy, nie jest w żadnym wypadku pomieszany z „wektorem własnym” w innych analizach wielowymiarowych, takich jak na przykład analiza dyskryminacyjna. Po raz kolejny, jak to powiedziałem, w ładunkach PCA 1) włączam informacje o wielkości zmienności; 2) Czy kowariancje / korelacje i dlatego są wykorzystywane do interpretacji. Wartości wektora własnego - nie są.
ttnphns

2
+1 Czytałem twoje posty na PCA i inne powiązane problemy i wiele się nauczyłem.
Antoni Parellada,

29

OK, całkowicie niemathowa odpowiedź:

Jeśli masz kilka zmiennych na kilka tematów i chcesz zredukować je do mniejszej liczby zmiennych na te same tematy, tracąc przy tym jak najmniej informacji, PCA jest na to narzędziem.

Różni się od analizy czynnikowej, chociaż często dają podobne wyniki, tym, że FA próbuje odzyskać niewielką liczbę ukrytych zmiennych z większej liczby obserwowanych zmiennych, które, jak się uważa, są powiązane ze zmiennymi ukrytymi.


Hej Peter! Dobrze cię tu widzieć. To naprawdę dobra, prosta, bez odpowiedzi matematycznej.
JD Long,

3
+1 za wzmiankę o FA, o której nikt inny nie dyskutuje i do której wyjaśnienia niektórych osób wydają się mieszać.
gung

Wydaje się, że nie ma różnicy w celach PCA i FA - oba mają na celu rotację, dzięki czemu można zobaczyć najważniejsze czynniki (wektory utajone, wektory wymiarowe, wektory osobliwe lub cokolwiek innego). Ale FA wydaje się nie być algorytmem, ale rodziną powiązanych technik (dla siebie i SVD i PCA) o odpowiednio źle zdefiniowanych celach (to znaczy różnorodnych i wzajemnie niespójnych, więc różne warianty „optymalizują” różne rzeczy).
David MW Powers

Czy słusznie byłoby powiedzieć, że PCA jest jednym z wielu możliwych sposobów analizy czynnikowej?
abalter

Terminologia w tym obszarze jest niezwykle niespójna.
Peter Flom

29

Najłatwiej jest robić matematykę w 2D.

Każda matryca odpowiada transformacji liniowej. Transformacje liniowe można zwizualizować, biorąc niezapomnianą figurę na płaszczyznę i widząc, jak ta figura jest zniekształcana przez transformację liniową:

transformacje liniowe (zdjęcie: Flanigan i Kazdan )

  • wektory własne mona lisashear
  • ×1
  • Piłka nożna PCA
    1=23%[1]+46%[2]+39%[3]

f(ax+by)=af(x)+bf(y)+abxyz jakiejś interesującej przestrzeni. Na przykład :

twarze

Sam PCA jest kolejnym przykładem, najbardziej znanym statystykom. Niektóre inne odpowiedzi, takie jak Freya, przedstawiają rzeczywiste zastosowania PCA.

similar how?x42.8%[x]57.2%[y]


2
W rzeczywistości jest to przypadek, że obroty są liniowe, a więc wygodny sposób opisywania tego, co dzieje się w przypadku danych niegeometrycznych. Zbieg okoliczności dotyczy kwadratowej natury zarówno przestrzeni kartezjańskiej / euklidesowej, jak i centralnego twierdzenia granicznego / Gaussa. Mianowicie. sigma sumują się kwadratowo jak wymiary ortogonalne, stąd nasza terminologia rotacyjna / ortogonalna ND pochodzi od analogii z przestrzenią 2D i 3D.
David MW Powers

@DavidMWPowers Interesujące. Myślę o obrotach z punktu widzenia algebry liniowej.
izomorfizmy

27

Po świetnym poście JD Long w tym wątku szukałem prostego przykładu i kodu R niezbędnego do wygenerowania PCA, a następnie powrotu do pierwotnych danych. Dało mi to pewną intuicję geometryczną z pierwszej ręki i chcę podzielić się tym, co dostałem. Zestaw danych i kod można bezpośrednio skopiować i wkleić w G Rith .

Użyłem zestawu danych, które znalazłem w internecie na półprzewodnikach tutaj , a ja go przycięte do zaledwie dwóch wymiarach - „liczbę atomową” i „temperaturę topnienia” - w celu ułatwienia kreślenia.


Jako zastrzeżenie, idea jest wyłącznie ilustracją procesu obliczeniowego: PCA służy do zredukowania więcej niż dwóch zmiennych do kilku pochodnych głównych składników lub do identyfikacji kolinearności również w przypadku wielu cech. Dlatego nie znalazłoby to większego zastosowania w przypadku dwóch zmiennych, ani nie byłoby potrzeby obliczania wektorów własnych macierzy korelacji, jak wskazał @amoeba.


Ponadto skróciłem obserwacje z 44 do 15, aby ułatwić śledzenie poszczególnych punktów. Ostatecznym wynikiem była szkieletowa ramka danych ( dat1):

compounds   atomic.no      melting.point
AIN         10             498.0
AIP         14             625.0
AIAs        23             1011.5
...         ...            ... 

Kolumna „związki” wskazuje skład chemiczny półprzewodnika i pełni rolę nazwy wiersza.

Można to odtworzyć w następujący sposób (gotowe do skopiowania i wklejenia na konsoli R):

dat              <- read.csv(url("http://rinterested.github.io/datasets/semiconductors"))
colnames(dat)[2] <- "atomic.no"
dat1             <- subset(dat[1:15,1:3])
row.names(dat1)  <- dat1$compounds
dat1             <- dat1[,-1]

Dane zostały następnie skalowane:

X <- apply(dat1, 2, function(x) (x - mean(x)) / sd(x))
# This centers data points around the mean and standardizes by dividing by SD.
# It is the equivalent to `X <- scale(dat1, center = T, scale = T)`  

Wykonano następujące kroki algebry liniowej:

C <- cov(X)                                           # Covariance matrix (centered data)

[at_nomelt_pat_no10.296melt_p0.2961]

Funkcja korelacji cor(dat1)daje taki sam wynik na nieskalowanych danych, jak funkcja cov(X)na skalowanych danych.

lambda        <- eigen(C)$values                      # Eigenvalues
lambda_matrix <- diag(2)*eigen(C)$values              # Eigenvalues matrix

[λPC1λPC21.296422000.7035783]

e_vectors     <- eigen(C)$vectors                     # Eigenvectors

12[PC1PC21111]

[0.7,0.7][0.7,0.7]

e_vectors[,1] = - e_vectors[,1]; colnames(e_vectors) <- c("PC1","PC2")

1.29642170.703578364.8%eigen(C)$values[1]/sum(eigen(C)$values) * 10065%35.2%

wprowadź opis zdjęcia tutaj

Uwzględnimy oba wektory własne, biorąc pod uwagę mały rozmiar tego zestawu danych zabawek, rozumiejąc, że wykluczenie jednego z wektorów własnych spowodowałoby zmniejszenie wymiarów - pomysł stojący za PCA.

Matrycy wynik oznaczono jako iloczyn macierzy do skalowanych danych ( X) przez macierz wektorów własnych (lub „obrotów”) :

score_matrix <-  X %*% e_vectors    
# Identical to the often found operation: t(t(e_vectors) %*% t(X))

X[0.7,0.7]TPC1[0.7,0.7]TPC2

wprowadź opis zdjęcia tutaj

[0.7,0.7]

wprowadź opis zdjęcia tutaj

1

> apply(e_vectors, 2, function(x) sum(x^2))
PC1 PC2 
  1   1 

podczas gdy ( ładunki ) są wektorami własnymi skalowanymi przez wartości własne (pomimo mylącej terminologii wbudowanych funkcji R pokazanych poniżej). W związku z tym obciążenia można obliczyć jako:

> e_vectors          %*% lambda_matrix
          [,1]      [,2]
[1,] 0.9167086  0.497505
[2,] 0.9167086 -0.497505

> prcomp(X)$rotation %*% diag(princomp(covmat = C)$sd^2)
                   [,1]      [,2]
atomic.no     0.9167086  0.497505
melting.point 0.9167086 -0.497505

Warto zauważyć, że obrócona chmura danych (wykres wyników) będzie miała wariancję wzdłuż każdego komponentu (PC) równą wartościom własnym:

> apply(score_matrix, 2, function(x) var(x))
       PC1        PC2 
53829.7896   110.8414 
> lambda
[1] 53829.7896   110.8414

Korzystając z wbudowanych funkcji, wyniki można replikować:

# For the SCORE MATRIX:
  prcomp(X)$x
# or...
  princomp(X)$scores # The signs of the PC 1 column will be reversed.

# and for EIGENVECTOR MATRIX:
  prcomp(X)$rotation
# or...
  princomp(X)$loadings

# and for EIGENVALUES:
  prcomp(X)$sdev^2
# or...
  princomp(covmat = C)$sd^2

UΣVTprcomp()

svd_scaled_dat <-svd(scale(dat1))
eigen_vectors <- svd_scaled_dat$v
eigen_values <- (svd_scaled_dat$d/sqrt(nrow(dat1) - 1))^2
scores<-scale(dat1) %*% eigen_vectors

Wynik pokazano poniżej, wraz z odległościami między poszczególnymi punktami do pierwszego wektora własnego, a na drugim wykresie odległości ortogonalne do drugiego wektora własnego:

wprowadź opis zdjęcia tutaj

Jeśli zamiast tego narysujemy wartości macierzy wyników (PC1 i PC2) - nie będzie to już „punkt topnienia” i „atomowy.no”, ale tak naprawdę zmiana podstawy współrzędnych punktu z wektorami własnymi jako podstawą, odległości te byłyby zachowane, ale naturalnie stałyby się prostopadłe do osi xy:

wprowadź opis zdjęcia tutaj

Sztuczka polegała teraz na odzyskaniu oryginalnych danych . Punkty zostały przekształcone poprzez proste zwielokrotnienie macierzy przez wektory własne. Teraz dane zostały odwrócone przez pomnożenie przez odwrotność macierzy wektorów własnych z wynikową wyraźną zmianą położenia punktów danych. Na przykład zauważ zmianę różowej kropki „GaN” w lewym górnym kwadrancie (czarny okrąg na lewym wykresie poniżej), powracając do swojej początkowej pozycji w lewym dolnym kwadrancie (czarny okrąg na prawym wykresie poniżej).

Teraz w końcu przywróciliśmy oryginalne dane w tej „odwróconej” macierzy:

wprowadź opis zdjęcia tutaj

Poza zmianą współrzędnych obrotu danych w PCA wyniki muszą być interpretowane, a proces ten zwykle obejmuje biplot, na którym punkty danych są wykreślane w odniesieniu do nowych współrzędnych własnych, a oryginalne zmienne są teraz nakładane jako wektory. Interesujące jest odnotowanie równoważności położenia punktów między wykresami w drugim rzędzie wykresów rotacji powyżej („Wyniki z osią xy = wektory własne”) (po lewej stronie wykresów poniżej) oraz biplot(do dobrze):

wprowadź opis zdjęcia tutaj

Nakładanie oryginalnych zmiennych jako czerwonych strzałek oferuje ścieżkę do interpretacji PC1jako wektora w kierunku (lub z korelacją dodatnią) zarówno z, jak atomic noi melting point; i PC2jako składnik wzdłuż rosnących wartości, atomic noale ujemnie skorelowany melting point, zgodny z wartościami wektorów własnych:

PCA$rotation
                    PC1        PC2
atomic.no     0.7071068  0.7071068
melting.point 0.7071068 -0.7071068

Ten interaktywny samouczek Victora Powella daje natychmiastową informację zwrotną na temat zmian w wektorach własnych w miarę modyfikacji chmury danych.


1
+1 za wysiłek, a zwłaszcza za animację! Należy jednak pamiętać, że PCA na macierzy korelacji dwóch zmiennych jest trochę szczególnym przypadkiem, ponieważ wszystkie macierze korelacji dwóch zmiennych mają identyczne wektory własne : jedna z nich zawsze będzie miała wartość [0,7 0,7] (0,7 to 1 / sqrt (2)). Nie dotyczy to macierzy kowariancji ani macierzy korelacji w wyższych wymiarach.
ameba

14

Od kogoś, kto dużo używał PCA (i próbował wyjaśnić to również kilku osobom), oto przykład z mojej własnej dziedziny neuronauki.

Kiedy nagrywamy z ludzkiej skóry głowy, robimy to za pomocą 64 elektrod. W rezultacie mamy na liście 64 liczby, które reprezentują napięcie wydzielane przez skórę głowy. Ponieważ nagrywamy z mikrosekundową precyzją, jeśli mamy 1-godzinny eksperyment (często trwają 4 godziny), to daje nam 1e6 * 60 ^ 2 == 3 600 000 000 punktów czasowych, w których na każdej elektrodzie zarejestrowano napięcie, dzięki czemu teraz mieć matrycę 3 600 000 000 x 64. Ponieważ głównym założeniem PCA jest to, że twoje zmienne są skorelowane, to świetna technika, aby zredukować tę absurdalną ilość danych do ilości możliwej do przełknięcia. Jak już wielokrotnie powiedziano, wartości własne reprezentują ilość wariancji wyjaśnionej przez zmienne (kolumny). W tym przypadku wartość własna reprezentuje wariancję napięcia w danym momencie wnoszoną przez konkretną elektrodę. Teraz możemy powiedzieć: „Och, cóż, elektrodaxw tym momencie ypowinniśmy się skupić na dalszej analizie, ponieważ tam właśnie dokonuje się najwięcej zmian. ”Mam nadzieję, że to pomaga. Uwielbiam te wykresy regresji!


12

Być może jestem złą osobą, by na to odpowiedzieć, ponieważ jestem przysłowiową babcią, która wyjaśniła mi tę koncepcję i niewiele więcej, ale oto:

Załóżmy, że masz populację. Duża część populacji zapada na zawał serca. Próbujesz dowiedzieć się, co powoduje zawał serca.

Masz dwa dane: wzrost i wagę.

Teraz jest jasne, że istnieje pewien związek między wagą a zawałami serca, ale korelacja nie jest tak naprawdę silna. Są ciężcy ludzie, którzy mają wiele zawałów serca, ale niektórzy nie.

Teraz robisz PCA i mówi ci, że masa podzielona przez wzrost („masa ciała”) jest znacznie bardziej prawdopodobnym predyktorem ataków serca niż waga lub wzrost, ponieważ „oto” rzeczywistość polega na tym, że masa ciała, która powoduje zawały serca.

Zasadniczo wykonujesz PCA, ponieważ mierzysz wiele rzeczy i nie wiesz tak naprawdę, czy są to naprawdę główne składniki, czy też istnieje głębszy składnik, którego nie mierzyłeś.

[Prosimy o edycję tego, jeśli jest całkowicie poza bazą. Naprawdę nie rozumiem tego pojęcia głębiej niż to].


1
Witamy na stronie statystyk @Joel! Jeśli masz szansę, możesz również przyczynić się do dyskusji na temat naszego proponowanego rozproszonego projektu analizy danych StackExchange : stats.stackexchange.com/questions/2512/… .
Shane

9
Doskonały przykład, ale technicznie PCA nie może znaleźć wyjaśnienia masy ciała, ponieważ może znaleźć tylko wyjaśnienia liniowe, czyli sumy ważone pierwotnych zmiennych. Jeśli jednak weźmiesz dzienniki zmiennych wejściowych, stosunek stanie się różnicą, a jeśli jest to właściwe wyjaśnienie, PCA będzie w stanie je znaleźć.
David MW Powers

10

Oto jeden dla babci:

W naszym mieście są ulice biegnące na północ i południe, niektóre na wschód i zachód, a nawet niektóre na północny zachód i południowy wschód, niektóre NE na południowy zachód. Pewnego dnia facet mierzy cały ruch na wszystkich ulicach, stwierdza, że ​​największy ruch odbywa się po przekątnej, z północnego zachodu na południowy wschód, drugi największy jest prostopadły do ​​tego, kierując się na północny wschód na południowy zachód, a cała reszta jest dość niewielka. Tak więc rysuje duży kwadrat, ustawia dużą linię od lewej do prawej i mówi, że to NW do SE, a następnie rysuje kolejną linię pionowo w górę i w dół przez środek. Mówi, że jest to drugi najbardziej zatłoczony kierunek ruchu (NE do SW). Reszta jest niewielka, więc można ją zignorować.

Lewa prawa linia jest pierwszym wektorem własnym, a linia w górę w dół jest drugim wektorem własnym. Łączna liczba samochodów jadących w lewo i prawo to pierwsza wartość własna, a samochody jadące w górę i w dół to druga wartość własna.


1
Ta analogia wydaje się załamywać w trakcie badania. Co jeśli największy i drugi co do wielkości kierunek ruchu nie jest ortogonalny? W jaki sposób twoja analogia pomaga nam zrozumieć PCA w takim przypadku?
whuber

Chyba babcia rozumie, co oznacza ortogonalny? Tak, pewne wady, ale to początek. Myślę, że to wspaniale, że było tu tak wiele odpowiedzi.
BajaBob,

2
Bez względu na to, czy „babcia” rozumie post, musi on być dość jasny i poprawny. Twoja analogia nie wydaje się osiągać żadnego z tych celów. Być może dlatego, że nie rozumiem analogii: nie mogę połączyć jej z tym, co PCA jest lub robi. Być może mógłbyś wyjaśnić, jak działa ta analogia, aby inni czytelnicy nie stali się tak tajemniczy jak ja.
whuber

Fakt, że nie są one ortogonalne, oznacza, że ​​potrzebujesz ICA lub FA, a nie PCA. Gdyby babcia obserwowała Star Trek (tak, ona jest z tego pokolenia), kiedy pokazują niepełnosprawny statek pod kątem - PCA miałoby tendencję do odzyskiwania płaszczyzny odniesienia odpowiedniej do skali i widoku (płaszczyzny galaktycznej lub osi statku).
David MW Powers

-1. Zgadzam się z @whuber, że ta analogia nie działa. Jakie tu powinny być dane, z jakiej macierzy kowariancji są te „wektory własne”? W ogóle tego nie rozumiem.
ameba

10

Ta odpowiedź daje intuicyjną i niematematyczną interpretację:

PCA da ci zestaw wektorów ortogonalnych w wielowymiarowej chmurze punktów. Kolejność wektorów zależy od informacji przekazywanej po rzutowaniu wszystkich punktów na wektory.

Innymi słowy: Pierwszy główny wektor składowy powie ci najwięcej o chmurze punktów po rzutowaniu wszystkich punktów na wektor. Jest to oczywiście intuicyjna interpretacja.

Spójrz na tę elipsoidę (kliknij link, aby uzyskać model 3D) :

wprowadź opis zdjęcia tutaj

Gdybyś musiał wybrać jeden wektor tworzący jednowymiarową podprzestrzeń, na którą będą rzutowane punkty punktów elipsoidy. Który z nich wybierzesz, ponieważ zawiera najwięcej informacji o oryginalnym zestawie w 3 wymiarach?

Chyba czerwony wzdłuż najdłuższej osi. I to jest faktycznie obliczony 1. główny składnik! Który następny - wybrałbym niebieski wzdłuż następnej najdłuższej osi.

Zazwyczaj chcesz rzutować zestaw punktów z przestrzeni wielowymiarowej na płaszczyznę dwuwymiarową lub na przestrzeń trójwymiarową .

wprowadź opis zdjęcia tutaj


http://www.joyofdata.de/blog/illustration-of-principal-component-analysis-pca/


10

Chociaż podano wiele przykładów zapewniających intuicyjne zrozumienie PCA, fakt ten może prawie utrudnić zrozumienie na początku, przynajmniej dla mnie.

„Co było jedyną cechą PCA, która łączy te wszystkie różne przykłady z różnych dyscyplin?”

To, co pomogło mi intuicyjnie zrozumieć, to kilka podobieństw matematycznych, ponieważ oczywiste jest, że matematyka jest dla ciebie łatwa, chociaż nie pomaga to wytłumaczyć twojej babci ...

Pomyśl o problemie z regularyzacją, próbując ją rozwiązać

||XBY||=0

YY

YYXkBYXBkSVSVT

AA


9

Oto odpowiedź matematyczna: pierwszym głównym składnikiem jest najdłuższy wymiar danych. Spójrz na to i zapytaj: gdzie są najszersze dane? To pierwszy składnik. Kolejnym elementem jest prostopadła. Zatem cygaro danych ma długość i szerokość. Ma to sens w przypadku wszystkiego, co jest trochę podłużne.


6
Niestety poprawność tej odpowiedzi zależy od interpretacji niejasnego wyrażenia „najdłuższy”. Wiele naturalnych i odpowiednich interpretacji, takich jak średnica , byłoby błędnych.
whuber

PCA faktycznie działa całkiem dobrze z różnymi rodzajami naturalnego sposobu pomiaru wymiaru / rozmiaru. Wystarczy wymienić macierz kowariancji na macierz, aby zmierzyć „wymiar” w dowolnym kierunku (matryca musi być zdefiniowana dodatnio lub symetrycznie). To tak, jak QuickSort działa dla różnych operatorów zamawiania, ale otrzymasz różne wyniki dla różnych operatorów zamawiających.
James LI

9

Sposób, w jaki rozumiem główne składniki, jest następujący: dane z wieloma zmiennymi (wzrost, waga, wiek, temperatura, długość fali, procent przeżycia itp.) Można przedstawić w trzech wymiarach, aby przedstawić pokrewieństwo.

Teraz, jeśli chcesz w jakiś sposób zrozumieć „dane 3D”, możesz chcieć wiedzieć, które płaszczyzny 2D (przekroje) tych danych 3D zawierają najwięcej informacji dla danego zestawu zmiennych. Te płaszczyzny 2D są głównymi komponentami, które zawierają proporcje każdej zmiennej.

Myśl o głównych składnikach jak o samych zmiennych, z charakterystykami złożonymi ze zmiennych pierwotnych (tę nową zmienną można opisać jako ciężar częściowy, wysokość części, wiek częściowy itp.) Kiedy drukujesz jeden główny składnik (X) z innym (Y), budujesz mapę 2D, która może geometrycznie opisywać korelacje między oryginalnymi zmiennymi. Teraz użyteczna część: ponieważ każdy porównywany przedmiot (obserwacja) jest powiązany z wartościami dla każdej zmiennej, podmioty (obserwacje) znajdują się również gdzieś na tej mapie XY. Ich lokalizacja opiera się na względnym udziale każdej podstawowej zmiennej (tj. Na jedną obserwację może mieć duży wpływ wiek i temperatura, a na drugą może mieć większy wpływ wzrost i waga).


8

W drugiej części dam odpowiedź niematatyczną i bardziej szczegółowy widok z lotu ptaka na motywację poprzez matematykę.


Non-Mathy:

Wyjaśnienie inne niż matematyczne polega na tym, że PCA pomaga w tworzeniu danych wielowymiarowych, pozwalając zobaczyć, w których kierunkach dane są najbardziej zróżnicowane. Te kierunki są głównymi elementami . Po uzyskaniu tych informacji możesz, w niektórych przypadkach, zdecydować o użyciu głównych składników jako samych znaczących zmiennych i znacznie zmniejszyć wymiarowość danych, utrzymując tylko główne składniki z największą wariancją ( mocą wyjaśniającą ).

Załóżmy na przykład, że rozdajesz ankietę polityczną zawierającą 30 pytań, na każde z nich można uzyskać odpowiedź od 1 ( zdecydowanie się nie zgadzam ) do 5 ( zdecydowanie się zgadzam ). Dostajesz mnóstwo odpowiedzi, a teraz masz 30-wymiarowe dane i nie możesz na ich podstawie zawodzić. Następnie w desperacji myślisz o uruchomieniu PCA i odkryciu, że 90% twojej wariancji pochodzi z jednego kierunku, a ten kierunek nie odpowiada żadnej z twoich osi. Po dalszej kontroli danych stwierdza się, że ta nowa oś hybrydowa odpowiada spektrum polityczno-lewicowemu, tj. Spektrum demokratów / republikanów, i dalej przygląda się bardziej subtelnym aspektom danych.


Mathy:

Czasami pomaga pomniejszyć i spojrzeć na matematyczną motywację, aby rzucić nieco światła na znaczenie.

Istnieje specjalna rodzina macierzy, które można przekształcić w macierze ukośne , zmieniając oś współrzędnych. Oczywiście są one nazywane matrycami ukośnymi i dość elegancko, nowa oś współrzędnych, która jest do tego potrzebna, to w rzeczywistości wektory własne.

Jak się okazuje, macierz kowariancji jest symetryczna i zawsze da się ją przekątnie ! W tym przypadku wektory własne nazywane są głównymi składnikami, a kiedy wypiszesz macierz kowariancji we współrzędnych wektora własnego, wpisy po przekątnej (tylko te pozostałe) odpowiadają wariancji w kierunku twoich wektorów własnych. To pozwala nam wiedzieć, które kierunki mają największą wariancję. Ponadto, ponieważ macierz kowariancji w tych współrzędnych jest ukośna, sprytnie wyeliminowałeś wszelką korelację między swoimi zmiennymi.

Jak zwykle w praktycznych zastosowaniach, zakładamy, że nasze zmienne są normalnie rozmieszczone, więc całkiem naturalne jest, aby spróbować zmienić nasze współrzędne, aby zobaczyć najprostszy obraz. Znając główne komponenty i odpowiadające im wartości własne (wariancję), będziesz w stanie zmniejszyć wymiarowość swoich danych, jeśli zajdzie taka potrzeba, a także uzyskasz szybkie ogólne podsumowanie tego, gdzie leży zmienność twoich danych.

Ale pod koniec dnia, korzeniem wszelkiego tym celowość wynika z faktu, że macierze diagonalne są sposób łatwiejszy do czynienia w porównaniu do ich Messiera, bardziej ogólnych kuzynów.


2
Dziękuję za twój wkład. Wydaje się jednak, że odnosi się do niepotrzebnie wąskiej interpretacji PCA. (1) PCA została owocnie zastosowana do wysoce nie Gaussowskich zbiorów danych. (2) PCA nie jest formalną procedurą parametryczną; być może lepiej jest myśleć o tym jak o duchu eksploracyjnym. (3) Wszystkie macierze kowariancji, dowolnego rodzaju wielowymiarowego rozkładu lub danych, można diagonalizować. Ani Gaussianity (normalność), ani nie-degeneracja nie są wymogami. (Symetria macierzy i posiadanie prawdziwych składników gwarantują przekątność .)
whuber

Muszę przyznać, że wstydzę się zapomnieć, ale dobrze, że matryce kowariancji są ogólnie diagonalne. Zamierzam edytować, aby to odzwierciedlić. Czy mógłbyś również rozwinąć zagadnienie w punkcie (2)? Nie znam różnicy między procedurami parametrycznymi i nieparametrycznymi.
Christian Bueno,

7

Uważam PCA za narzędzie geometryczne. Jeśli dostaniesz kilka punktów w 3-spacji, które są prawie wszystkie na linii prostej, i chcesz zrozumieć równanie tej linii, otrzymasz ją za pomocą PCA (weź pierwszy składnik). Jeśli masz kilka punktów w 3-przestrzeni, które są głównie płaskie, i chcesz odkryć równanie tej płaszczyzny, zrób to za pomocą PCA (weź najmniej znaczący wektor składowy i powinien być normalny do płaszczyzny).


7

Dlaczego tak wartości własne / wektory własne?

Wykonując PCA, chcesz obliczyć pewną ortogonalną podstawę, maksymalizując prognozowaną wariancję dla każdego wektora bazowego.

Po obliczeniu poprzednich wektorów bazowych chcesz, aby następny był:

  • prostopadły do ​​poprzedniego
  • norma 1
  • maksymalizacja przewidywanej wariancji, tj. przy maksymalnej normie kowariancji

Jest to problem optymalizacji z ograniczeniami, a mnożniki Lagrange'a (tutaj dla intuicji geometrycznej, patrz strona wikipedia) mówią ci, że gradienty celu (wariancja projekcyjna) i ograniczenia (norma jednostkowa) powinny być „równoległe” w optymium.

Jest to to samo, co stwierdzenie, że następnym wektorem podstawowym powinien być wektor własny macierzy kowariancji. Najlepszym wyborem na każdym kroku jest wybranie tego z największą wartością własną spośród pozostałych.


5
Zdecydowanie nie jest to wyjaśnienie dla laika - wektory bazowe ortogonalne? maksymalizowanie wariancji projekcji? Ograniczony problem optymalizacji? Mnożnik Lagrange'a? Są to wysoce „żargonizowane” terminy. Pokaż laika, który rozumie, co to znaczy, a pokażę ci matematyk / statystyka
probabilityislogic

6

Zasadniczo PCA znajduje nowe zmienne, które są liniowymi kombinacjami pierwotnych zmiennych, tak że w nowej przestrzeni dane mają mniej wymiarów. Pomyśl o zestawie danych składającym się z punktów w 3 wymiarach na powierzchni płaskiej płytki ustawionej pod kątem. W oryginalnych osiach x, y, z potrzebujesz 3 wymiarów do przedstawienia danych, ale przy właściwej transformacji liniowej potrzebujesz tylko 2.

Zasadniczo to, co powiedział @Joel, ale tylko liniowe kombinacje zmiennych wejściowych.


6

Jakiś czas temu próbowałem zrozumieć ten algorytm PCA i chciałem zanotować wektory własne i wartości własne. W dokumencie tym stwierdzono, że celem pojazdów elektrycznych jest przekształcenie modelu dużego modelu w model bardzo małego rozmiaru.

Na przykład, zamiast budować najpierw pełnowymiarowy most, a następnie przeprowadzać na nim eksperymenty i testy, można użyć EV do stworzenia bardzo małego mostu, w którym wszystkie czynniki / wielkości zostaną zmniejszone o ten sam margines, a ponadto rzeczywisty wynik przeprowadzonych na nim testów i testów związanych ze stresem można odpowiednio obliczyć i powiększyć odpowiednio do potrzeb oryginalnego modelu. W pewnym sensie EV pomagają tworzyć streszczenia oryginału .

Dla mnie to wyjaśnienie miało głębokie znaczenie dla tego, co próbowałem zrobić! Mam nadzieję, że to też pomoże!


-1. Być może nie w pełni doceniłem tę analogię, ale wydaje mi się to dość mylące. PCA rzeczywiście (w pewnym sensie) pozwala „przekonwertować” model „duży” na model „mały”, ale robi to poprzez zmniejszenie wymiarów zbioru danych. Ale w jaki sposób mały mostek o niższych wymiarach niż duży ?! Oba są w 3D, prawda?
ameba

@amoeba: ten fragment jest z artykułu, który czytam, to nie są dokładnie moje słowa. Od dłuższego czasu nie studiowałem tego tematu i straciłem ślad.
Rorschach,

6

Wyobraź sobie, że babcia właśnie zrobiła swoje pierwsze zdjęcia i filmy aparatem cyfrowym, który podarowałeś jej na Boże Narodzenie, niestety upuszcza prawą rękę, gdy naciska przycisk fotografowania, i trzęsie się trochę podczas filmowania. Zauważa, że ​​ludzie, drzewa, ogrodzenia, budynki, drzwi, meble itp. Nie są ustawione prosto w górę i w dół, nie są pionowe, a podłoga, ziemia, morze i horyzont nie są dobrze poziome, i cóż, filmy też są chwiejne. Pyta, czy możesz pomóc jej to naprawić, wszystkie 3000 zdjęć z wakacji i około 100 filmów w domu i na plaży (jest Australijką), otwierając prezenty, spacerując po kraju. Ma to oprogramowanie fotograficzne, które pozwala ci robić to, co mówi. Mówisz jej, że zajmie to kilka dni i i tak nie będzie działać na filmach, ale znasz techniki zwane PCA i ICA, które mogą pomóc. Wyjaśniasz, że twoje badania faktycznie obejmują właśnie tego rodzaju obrót danych do naturalnych wymiarów, że techniki te znajdują najważniejsze kierunki w danych, w tym przypadku zdjęcie i obracają się, więc najważniejszy jest poziomy, drugi jest pionowy (i może nawet trwać dla większej liczby wymiarów, których nie wyobrażamy sobie dobrze, chociaż czas jest również wymiarem w filmach).

-

Pomoc techniczna. W rzeczywistości prawdopodobnie mógłbyś zdobyć tytuł doktora, robiąc to dla niej, i jest ważny artykuł Bell i Sejnowski (1997) na temat niezależnych składników obrazów odpowiadających krawędziom. Aby powiązać to z PCA: ICA wykorzystuje PCA lub SVD jako pierwszy krok w celu zmniejszenia wymiarów i wstępnych przybliżeń, ale następnie ulepsza je, uwzględniając nie tylko błąd drugiego rzędu (SSE) jak PCA, ale także błędy wysokiego rzędu - jeśli to prawda ICA, wszystkie wyższe rzędy, chociaż wiele algorytmów ogranicza się do 3 lub 4. Na komponenty PCA niskiego rzędu zwykle silnie wpływają poziomy i pion. Radzenie sobie z ruchem kamery w filmach może również wykorzystywać PCA / ICA. Zarówno w przypadku zdjęć 2D, jak i filmów 2½D potrzebujesz kilku reprezentacyjnych sztuczek, aby to osiągnąć.

Inną aplikacją, którą możesz wytłumaczyć babci, są powierzchnie własne - wektory własne wyższego rzędu mogą przybliżać „7 podstawowych emocji” (średnia twarz dla każdej z nich i „skalowany obrót” lub kombinację liniową, aby to uśrednić), ale często znajdujemy elementy, które są związane z płcią i rasą, a niektóre mogą odróżniać poszczególne osoby lub cechy indywidualne (okulary, broda itp.). Dzieje się tak, jeśli masz kilka zdjęć jednej osoby i wiele emocji / wyrażeń, ale masz inne uprzedzenia, jeśli masz wiele twarzy o neutralnych wyrazach. Używanie ICA zamiast PCA nie wydaje się zbytnio pomagać w podstawowych emocjach, ale Bartlett i Sejnowsiki (1997) wykazali, że znaleźli przydatne funkcje do rozpoznawania twarzy.


1
Doceniam wysiłek komunikowania się za pomocą przykładów i analogii. Jednak użycie obrazów jest niefortunne, ponieważ babcia o wysokim prawdopodobieństwie nie zrozumie, że twoje poczucie „obracania” ma niewiele wspólnego z faktycznym obracaniem osi obrazu , ani nie jest w stanie zrozumieć, że używasz wymiaru „ „w abstrakcyjnym sensie, w którym zdjęcia mają miliony wymiarów, a nie tylko dwa.
whuber

Tak, musisz przedstawić go jako chmurę punktów, tak jak w przypadku obrazów w innych odpowiedziach. Przetwarzanie wstępne z pewną formą wykrywania krawędzi i / lub progowania byłoby prawdopodobnie częścią „sztuczek”, o których wspomniałem. Ale operowanie złożonym zdjęciem wymaga sztuczek doktora.
David MW Powers

@ whuber Właściwie użyłem PCA (no SVD), aby znaleźć te obroty podczas kalibracji obrazu stereo! To zdecydowanie to samo poczucie rotacji.
David MW Powers

2

Myślę, że wszyscy zaczynają wyjaśniać PCA z niewłaściwego końca: z wektorów własnych. Moja odpowiedź zaczyna się we właściwym miejscu: układ współrzędnych. Wektory własne i problem własny w ogóle są narzędziem matematycznym używanym do rozwiązania rzeczywistego problemu, jakim jest niewłaściwy układ współrzędnych. Wytłumaczę.

Zacznijmy od linii. Co to jest linia? To obiekt jednowymiarowy. Potrzebujesz tylko jednego wymiaru, aby przejść z jednego punktu do drugiego. Na płaszczyźnie dołączasz dwie współrzędne w dowolnym punkcie linii. Jest tak, ponieważ w odniesieniu do samej linii układ współrzędnych jest wybierany dowolnie. Twierdzę, że układ współrzędnych nie odzwierciedla wewnętrznej jednowymiarowej natury linii. Gdybym tylko zawsze umieszczał początek linii kartezjańskiego układu współrzędnych na linii i obracał go tak, aby jego oś x znajdowała się na linii, to nie potrzebowałbym już osi y! Wszystkie moje punkty są na jednej osi, ponieważ linia jest obiektem jednowymiarowym.

Właśnie tam powinny zacząć się wyjaśnienia PCA. Problem własny jest narzędziem, które wykonuje obrót, który opisałem, a usunięcie znaczeń zmiennych umieszcza początek na linii. PCA pomaga ujawnić prawdziwe wymiary danych, o ile relacje między zmiennymi są liniowe .


1

Pamiętaj, że wektor własny to wektor, którego transformacja jest równoległa do tego samego wektora wejściowego. Zatem wektor własny o wysokiej wartości własnej oznacza, że ​​wektor własny ma wysoki stopień „równoległości” do danych, co oznacza, że ​​możesz reprezentować dane tylko za pomocą tego wektora i oczekiwać niskiego błędu w nowej reprezentacji. Jeśli wybierzesz dodatkowe wektory własne o niższych wartościach własnych, będziesz w stanie przedstawić więcej szczegółów danych, ponieważ będziesz reprezentować inne „równoległości” - które nie są tak widoczne jak pierwszy z powodu niższych wartości własnych.


0

PCA to w zasadzie rzutowanie przestrzeni o wyższym wymiarze na przestrzeń o niższych wymiarach przy zachowaniu jak największej ilości informacji.

Napisałem wpis na blogu, w którym wyjaśniam PCA poprzez projekcję czajnika 3D ...

wprowadź opis zdjęcia tutaj

... na płaszczyznę 2D, zachowując jak najwięcej informacji:

wprowadź opis zdjęcia tutaj

Szczegóły i pełny kod R można znaleźć w poście:
http://blog.ephorie.de/intuition-for-principal-component-analysis-pca


1
Niezależnie od zdjęć, obecnie jest to raczej komentarz niż odpowiedź. Czy możesz to rozwinąć, być może podając streszczenie informacji pod linkiem? Posty w sieci SE powinny stać samodzielnie.
gung

@gung: dość słusznie - sedno polega na tym, że PCA jest zasadniczo rzutem przestrzeni o wyższym wymiarze (w tym przypadku czajnika 3D) na przestrzeń o niższych wymiarach (w tym przypadku na płaszczyznę 2D), zachowując jednocześnie tyle informacji, ile możliwy. Zmieni to w odpowiedzi.
vonjd

Z pewnością jest to prawda (i wyjaśnione w wielu innych istniejących odpowiedziach w tym wątku), ale generalnie powinno być więcej odpowiedzi zamieszczonych w systemie SE i powinny one być w stanie samodzielnie przetrwać, jeśli np. Link przestanie działać.
gung

1
Przykład czajnika jest interesujący. Mówisz, że PCA jest rzutem na przestrzeń o niższych wymiarach, zachowując jednocześnie tyle „informacji”. Ale .... czym jest informacja? W przypadku PCA oznacza to utrzymanie możliwie największej wariancji. Przykład dzbanka do herbaty bardziej przypomina stwierdzenie, że informacja jest „najlepiej zachowana” dzięki zastosowaniu projekcji w konkretnej płaszczyźnie, ale mało wyjaśnia to, w jaki sposób PCA to robi i czy jest to również „najlepszy” wybór „informacji”. Na przykład LDA jest także projekcją, która ma na celu zachowanie informacji, ale nie taką samą jak PCA.
Martijn Weterings

Jeśli twój czajniczek byłby bardziej okrągły / okrągły (mniejszy) niż PCA „wybrałby” inne skrzyżowanie, aby zachować większość „informacji”.
Martijn Weterings

-4

Być może na późnych etapach tych analiz jest domniemane założenie, że dane z grupy I różnią się od grupy II i próbuje się ustalić, który składnik może być głównym czynnikiem przyczyniającym się do różnicy.

Przeprowadzenie analizy PCA, która daje identyczne elipsoidy dla 2 różnych zestawów, mówi następnie, że oba zestawy nie różnią się żadnym z mierzonych parametrów.


2
Zastanawiam się, czy myślisz o MANOVA. Jeśli uruchomiłeś dwa oddzielne PCA, pokazałbyś tylko, że struktura al korelacji była podobna.
gung

2
-1. Jest to całkowicie myląca odpowiedź z powodu przedstawionego przez @gung. Nie próbuje nawet wyjaśnić, czym jest PCA.
ameba
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.