Jakie są główne wyniki składowe (wyniki PC, wyniki PCA)?
Jakie są główne wyniki składowe (wyniki PC, wyniki PCA)?
Odpowiedzi:
Najpierw zdefiniujmy wynik.
John, Mike i Kate otrzymują następujące odsetki egzaminów z matematyki, nauk ścisłych, języka angielskiego i muzyki w następujący sposób:
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
W tym przypadku jest w sumie 12 wyników. Każdy wynik reprezentuje wyniki egzaminu dla każdej osoby z określonego przedmiotu. Zatem wynik w tym przypadku jest po prostu reprezentacją miejsca przecięcia się wiersza i kolumny.
Teraz nieformalnie zdefiniujmy główny składnik.
Czy w powyższej tabeli możesz łatwo wykreślić dane na wykresie 2D? Nie, ponieważ istnieją cztery przedmioty (co oznacza cztery zmienne: matematyka, nauki ścisłe, angielski i muzyka), tj .:
Ale jak planowałbyś 4 tematy?
W tej chwili mamy cztery zmienne, z których każda reprezentuje tylko jeden podmiot. Metodą tego może być w jakiś sposób połączenie badanych w być może tylko dwie nowe zmienne, które możemy następnie wykreślić. Jest to znane jako skalowanie wielowymiarowe .
Analiza głównego elementu jest formą wielowymiarowego skalowania. Jest to liniowa transformacja zmiennych w przestrzeń o niższych wymiarach, która zachowuje maksymalną ilość informacji o zmiennych. Na przykład oznaczałoby to, że moglibyśmy spojrzeć na rodzaje przedmiotów, do których każdy uczeń może być bardziej odpowiedni.
Główny składnik jest zatem kombinacją pierwotnych zmiennych po transformacji liniowej. W R jest to:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
Który da ci coś takiego (pierwsze dwa główne składniki tylko dla uproszczenia):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
Pierwsza kolumna pokazuje współczynniki kombinacji liniowej, która definiuje główny składnik # 1, a druga kolumna pokazuje współczynniki dla głównego składnika # 2.
Co to jest główny wynik komponentu?
Jest to wynik z tabeli na końcu tego postu (patrz poniżej).
Powyższy wynik z R oznacza, że możemy teraz wykreślić punktację każdej osoby na wszystkich obiektach na wykresie 2D w następujący sposób. Najpierw musimy wyśrodkować oryginalne zmienne, co oznacza, że kolumna odejmowania oznacza:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
A następnie do postaci liniowej kombinacji, aby uzyskać PC1 i PC2 wyniki :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
Co upraszcza:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
W powyższej tabeli znajduje się sześć głównych ocen składowych . Możesz teraz wykreślić wyniki na wykresie 2D, aby poznać rodzaj przedmiotów, do których każdy uczeń może być bardziej odpowiedni.
Ten sam wynik można uzyskać w R, wpisując prcomp(DF, scale = FALSE)$x
.
EDYCJA 1: Hmm, prawdopodobnie mógłbym wymyślić lepszy przykład, i jest w tym coś więcej niż to, co tu umieściłem, ale mam nadzieję, że masz pomysł.
EDYCJA 2: pełne podziękowania dla @drpaulbrewer za komentarz w ulepszeniu tej odpowiedzi.
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
wyników. Wcześniej nie.
Analiza głównego składnika (PCA) to jedno z popularnych metod analizy wariancji w przypadku danych wielowymiarowych. Masz losowe zmienne X1, X2, ... Xn, które wszystkie są skorelowane (dodatnio lub ujemnie) w różnym stopniu i chcesz lepiej zrozumieć, co się dzieje. PCA może pomóc.
PCA daje ci zmianę zmiennej na Y1, Y2, ..., Yn (tj. Ta sama liczba zmiennych), które są liniowymi kombinacjami Xs. Na przykład możesz mieć Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...
Ys to miła właściwość, że każdy z nich ma zerową korelację ze sobą. Co więcej, otrzymujesz je w malejącej kolejności wariancji. Tak więc Y1 „wyjaśnia” dużą część wariancji pierwotnych zmiennych, Y2 nieco mniej i tak dalej. Zwykle po kilku pierwszych Y zmienne stają się nieco bez znaczenia. Wynik PCA dla każdego z Xi jest po prostu jego współczynnikiem w każdym z Y. W moim wcześniejszym przykładzie wynik dla X2 w pierwszym głównym składniku (Y1) wynosi 1,76.
PCA robi tę magię, obliczając wektory własne macierzy kowariancji.
Aby dać konkretny przykład, wyobraź sobie, że X1, ... X10 to zmiany w rentownościach obligacji skarbowych na 1 rok, 2 lata, ..., 10 lat w pewnym okresie czasu. Podczas obliczania PCA zazwyczaj okazuje się, że pierwszy składnik ma wyniki dla każdego wiązania tego samego znaku i mniej więcej tego samego znaku. To mówi ci, że większość wariancji rentowności obligacji pochodzi ze wszystkiego poruszającego się w ten sam sposób: „równoległe przesunięcia” w górę lub w dół. Drugi komponent zazwyczaj wykazuje „wygięcie” i „spłaszczenie” krzywej i ma przeciwne znaki dla X1 i X10.
PC1 > PC2 > ... > PCn
a suma ich wariancji jest równa sumie wariancji początkowego zestawu zmiennych, ponieważ PCA oblicza się na macierzy kowariancji, tzn. Zmienne są standaryzowane (SD = 1, VAR = 1).
Załóżmy, że masz chmurę N punktów, powiedzmy, w 3D (które mogą być wymienione w tablicy 100 x 3). Następnie analiza głównych składników (PCA) dopasowuje do danych dowolnie zorientowaną elipsoidę. Główną punktacją składową jest długość średnic elipsoidy.
W kierunku, w którym średnica jest duża, dane bardzo się różnią, natomiast w kierunku, w którym średnica jest mała, dane różnią się nieco. Jeśli chcesz rzutować dane Nd na dwuwymiarowy wykres rozproszenia, rysuj je wzdłuż dwóch największych głównych składników, ponieważ dzięki takiemu podejściu wyświetlasz większość wariancji danych.
Lubię myśleć o punktacji składowych głównych jako „zasadniczo bez znaczenia”, dopóki nie nadasz im jakiegoś znaczenia. Interpretowanie wyników komputerowych w kategoriach „rzeczywistości” to trudna sprawa - i naprawdę nie ma wyjątkowego sposobu, aby to zrobić. To zależy od tego, co wiesz o poszczególnych zmiennych wchodzących w skład PCA i od tego, jak odnoszą się one do siebie pod względem interpretacji.
Jeśli chodzi o matematykę, lubię interpretować wyniki PC jako współrzędne każdego punktu w odniesieniu do głównych osi składowych. Więc w surowych zmiennych masz
Możesz więc pomyśleć o wektorach własnych jako o opisie „linii prostych” opisujących komputery. Następnie oceny głównych składowych opisują, gdzie każdy punkt danych leży na każdej linii prostej, w stosunku do „centrum” danych. Możesz również pomyśleć o wynikach PC w połączeniu z wagami / wektorami własnymi jako serią prognoz rangi 1 dla każdego z oryginalnych punktów danych, które mają postać:
Głównymi składnikami macierzy danych są pary wektor własny-wartość własna jej macierzy wariancji-kowariancji. Zasadniczo są to elementy wariancji związane z dekoracją. Każda z nich jest liniową kombinacją zmiennych do obserwacji - załóżmy, że mierzysz w, x, y, z na każdym z wielu badanych. Twój pierwszy komputer może być czymś podobnym
0,5 w + 4x + 5 lat - 1,5z
Ładunki (wektory własne) są tutaj (0,5, 4, 5, -1,5). Wynik (wartość własna) dla każdej obserwacji jest wartością wynikową po zastąpieniu obserwowanego (w, x, y, z) i obliczeniu sumy.
Jest to przydatne, gdy rzutujesz rzeczy na ich główne elementy (na przykład wykrywanie wartości odstających), ponieważ po prostu wykreślasz wyniki dla każdego z nich, tak jak w przypadku innych danych. To może ujawnić wiele na temat twoich danych, jeśli duża wariancja jest skorelowana (== na kilku pierwszych komputerach).
Wyjście z R na PCA (fałszywy przykład) wygląda następująco. PC1, PC2 ... są głównymi składnikami 1, 2 ... Poniższy przykład pokazuje tylko pierwszych 8 głównych składników (spośród 17). Możesz także wyodrębnić inne elementy z PCA, takie jak ładunki i wyniki.
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
Główne wyniki składowe to grupa wyników, które są uzyskiwane zgodnie z zasadą analizy składowych (PCA). W PCA relacje między grupą wyników są analizowane w taki sposób, że tworzona jest równa liczba nowych „urojonych” zmiennych (aka składowych zasad). Pierwsza z tych nowych zmiennych urojonych jest maksymalnie skorelowana ze wszystkimi oryginalnymi grupami zmiennych. Następny jest nieco mniej skorelowany i tak dalej, do tego stopnia, że jeśli użyjesz wszystkich głównych składowych wyników do przewidzenia dowolnej zmiennej z początkowej grupy, będziesz w stanie wyjaśnić całą jej wariancję. Sposób, w jaki postępuje PCA, jest złożony i ma pewne ograniczenia. Wśród nich jest ograniczenie, że korelacja między dowolnymi dwoma głównymi składnikami (tj. Zmiennymi urojonymi) wynosi zero; więc nie robi