Interpretacja dwupłatów w analizie głównych składników


30

Natknąłem się na ten przyjemny samouczek: Podręcznik analiz statystycznych przy użyciu R. Rozdział 13. Analiza głównych składników: Olimpijski heptathlon na temat tego, jak robić PCA w języku R. Nie rozumiem interpretacji rysunku 13.3:

dwupłat

Planuję więc pierwszy wektor własny vs drugi wektor własny. Co to znaczy? Załóżmy, że wartość własna odpowiadająca pierwszemu wektorowi własnemu wyjaśnia 60% zmienności zbioru danych, a druga wartość własna wektora wyjaśnia 20% zmienności. Co to znaczy knować je ze sobą?


Odpowiedzi:


22

PCA jest jednym z wielu sposobów analizy struktury danej macierzy korelacji. Z założenia, pierwsza główna oś to ta, która maksymalizuje wariancję (odzwierciedloną przez jej wartość własną), gdy dane są rzutowane na linię (która oznacza kierunek w przestrzeni wymiarowej, zakładając, że masz zmienne ), a druga jest prostopadła do niego i nadal maksymalizuje pozostałą wariancję. To jest powód, dla którego użycie dwóch pierwszych osi powinno zapewnić lepsze przybliżenie pierwotnej przestrzeni zmiennych (powiedzmy macierz o wymiarze ), gdy jest rzutowana na płaszczyznę.ppXn×p

Główne składniki to po prostu liniowe kombinacje oryginalnych zmiennych. Dlatego wykreślanie wyników poszczególnych czynników (zdefiniowanych jako , gdzie jest wektorem obciążeń dowolnego głównego składnika), może na przykład pomóc wyróżnić grupy jednorodnych osobników lub zinterpretować ogólną punktację przy rozważaniu wszystkich zmiennych jednocześnie. Innymi słowy, jest to sposób na podsumowanie swojej lokalizacji w odniesieniu do jej wartości naXuupzmienne lub ich kombinacja. W twoim przypadku ryc. 13.3 w HSAUR pokazuje, że Joyner-Kersee (Jy-K) ma wysoki (ujemny) wynik na 1. osi, co sugeruje, że ogólnie wypadł całkiem dobrze na wszystkich zawodach. Ta sama linia rozumowania dotyczy interpretacji drugiej osi. Spoglądam na postać bardzo krótko, więc nie będę wchodził w szczegóły, a moja interpretacja jest z pewnością powierzchowna. Zakładam, że dalsze informacje znajdziesz w podręczniku HSAUR. W tym miejscu warto zauważyć, że zarówno zmienne, jak i jednostki są pokazane na tym samym diagramie (nazywa się to biplotemr(x1,x2))=sałata2)(x1,x2))

Myślę jednak, że lepiej zacznij czytać książkę wprowadzającą na temat analizy wielowymiarowej, aby uzyskać głęboki wgląd w metody oparte na PCA. Na przykład BS Everitt napisał doskonały podręcznik na ten temat, An R and S-Plus ® Companion to Multivariate Analysis , i możesz sprawdzić stronę internetową towarzyszącą dla ilustracji. Istnieją inne świetne pakiety R do analizy danych wielowymiarowych, takie jak ade4 i FactoMineR .


r(x1,x2))=sałata(x1,x2))sałata2)(x1,x2))

21

Fabuła pokazuje:

  • wynik każdego przypadku (tj. sportowca) z pierwszych dwóch głównych składników
  • obciążenie każdej zmiennej (tj. każdego wydarzenia sportowego) na pierwszych dwóch głównych elementach.

Lewa i dolna oś pokazują [znormalizowane] główne wyniki składowych; górna i prawa oś pokazują obciążenia.

Ogólnie zakłada się, że dwa składniki wyjaśniają wystarczającą ilość wariancji, aby zapewnić znaczącą wizualną reprezentację struktury przypadków i zmiennych.

Możesz sprawdzić, które wydarzenia są blisko siebie w przestrzeni. Jeśli ma to zastosowanie, może to sugerować, że sportowcy, którzy są dobrzy na jednym wydarzeniu, mogą być również dobrzy na innych zawodach bliższych. Możesz też użyć fabuły, aby zobaczyć, które zdarzenia są odległe. Na przykład oszczep wydaje się być wartością odstającą i ważnym zdarzeniem definiującym drugi główny składnik. Być może inny sportowiec jest dobry w rzucie oszczepem niż dobry w większości innych wydarzeń.

Oczywiście można powiedzieć więcej o interpretacji merytorycznej.



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.