Wyjaśnienie PCA i proporcji wariancji

90

Ogólnie, co należy rozumieć przez powiedzenie, że część wariancji w analizie takiej jak PCA jest wyjaśniona przez pierwszy główny składnik? Czy ktoś może to wyjaśnić intuicyjnie, ale również podać dokładną matematyczną definicję tego, co oznacza „wyjaśniona wariancja” w kategoriach analizy głównego składnika (PCA)? $x$

Dla prostej regresji liniowej r-kwadrat linii najlepszego dopasowania jest zawsze opisany jako wyjaśniona proporcja wariancji, ale nie jestem też pewien, co z tym zrobić. Czy proporcja wariancji jest tutaj tylko odchyleniem punktów od linii najlepszego dopasowania?

— użytkownik9097
źródło

Zobacz także pytania / oznaczone / regresja + efekt-wielkość -> Abelson, A Variance Explanation Paradox , 1985, 5p.

— denis

103

W przypadku PCA, „odchylenie” oznacza wariancję podsumowującej lub zmienność wieloczynnikowej lub całkowitą zmienność lub całkowitą zmienność . Poniżej znajduje się macierz kowariancji około 3 zmiennych. Ich wariancje są na przekątnej, a suma 3 wartości (3,448) jest zmiennością ogólną.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Teraz PCA zastępuje oryginalne zmienne nowymi zmiennymi, zwanymi głównymi składnikami, które są ortogonalne (tj. Mają zerowe kowariacje) i mają wariancje (zwane wartościami własnymi) w porządku malejącym. Zatem macierz kowariancji między głównymi składnikami wyodrębnionymi z powyższych danych jest następująca:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Należy zauważyć, że suma diagonalna wynosi nadal 3,448, co oznacza, że wszystkie 3 składniki odpowiadają całej zmienności wielowymiarowej. Pierwszy główny składnik odpowiada lub „wyjaśnia” 1,651 / 3,448 = 47,9% ogólnej zmienności; drugi wyjaśnia 1.220 / 3.448 = 35,4%; trzeci wyjaśnia. 577 / 3,448 = 16,7%.

Co mają na myśli, gdy mówią, że „ PCA maksymalizuje wariancję ” lub „ PCA wyjaśnia maksymalną wariancję ”? Nie oznacza to oczywiście, że znajduje największą wariancję wśród trzech wartości 1.343730519 .619205620 1.485549631, nie. PCA znajduje w przestrzeni danych wymiar (kierunek) o największej wariancji spośród wariancji ogólnej1.343730519+.619205620+1.485549631 = 3.448 . Byłaby to największa wariancja 1.651354285. Następnie znajduje wymiar drugiej największej wariancji, ortogonalnej do pierwszej, spośród pozostałej 3.448-1.651354285ogólnej wariancji. Ten drugi wymiar byłby 1.220288343wariancją. I tak dalej. Ostatnim pozostałym wymiarem jest .576843142wariancja. Zobacz także „Pt3” tutaj i świetną odpowiedź tutaj wyjaśniając, jak to zrobić bardziej szczegółowo.

Matematycznie PCA odbywa się za pomocą funkcji algebry liniowej zwanej rozkładem własnym lub rozkładem svd. Funkcje te zwrócą ci jednocześnie wszystkie wartości własne 1.651354285 1.220288343 .576843142(i odpowiadające im wektory własne) ( patrz , patrz ).

— ttnphns
źródło

1

Co masz na myśli mówiąc: „Zauważ, że suma diagonalna wciąż wynosi 3,448, co oznacza, że wszystkie 3 składniki odpowiadają za zmienność wielowymiarową” i jaka jest różnica między twoją metodą a PoV (Proporcja zmienności)?

— kamaci

2

Nie sugeruję żadnej „metody”. Właśnie wyjaśniłem, że wszystkie komputery mają taką samą całkowitą zmienność jak oryginalne zmienne.

— ttnphns

Czy możesz sprawdzić moje pytanie: stats.stackexchange.com/questions/44464/…

— kamaci

Przepraszam :-( Obecnie nie mogę. Jest zbyt wiele komentarzy, żeby się dostroić.

— ttnphns

1

wystarczy przeczytać pytanie. W komentarzach nie ma nic.

— kamaci

11

@ttnphns podał dobrą odpowiedź, być może mógłbym dodać kilka punktów. Po pierwsze, chcę podkreślić, że na CV było istotne pytanie z naprawdę mocną odpowiedzią - zdecydowanie chcesz to sprawdzić. W dalszej części będę odwoływał się do fabuł pokazanych w tej odpowiedzi.

Wszystkie trzy wykresy wyświetlają te same dane. Zauważ, że w danych występuje zmienność zarówno w pionie, jak iw poziomie, ale większość zmienności możemy uznać za diagonalną . Na trzecim wykresie ta długa czarna linia ukośna jest pierwszym wektorem własnym (lub pierwszym składnikiem zasadowym), a długość tego składnika zasadniczego (rozkład danych wzdłuż tej linii - w rzeczywistości nie długość samej linii, która jest właśnie narysowany na wykresie) jest pierwszą wartością własną- jest to kwota wariancji uwzględniona przez pierwszy składnik zasadniczy. Gdyby zsumować tę długość z długością drugiego składnika zasad (czyli szerokości rozłożenia danych prostopadle poza tę linię przekątną), a następnie podzielić którąkolwiek z wartości własnych przez tę sumę, otrzymamy procent wariancji uwzględnionej przez odpowiedni składnik zasady.

Z drugiej strony, aby zrozumieć procent wariancji uwzględnionej w regresji, możesz spojrzeć na górny wykres. W takim przypadku czerwona linia jest linią regresji lub zbiorem przewidywanych wartości z modelu. Wyjaśnioną wariancję można rozumieć jako stosunek pionowego rozproszenia linii regresji (tj. Od najniższego punktu na linii do najwyższego punktu na linii) do pionowego rozproszenia danych (tj. Od najniższego punktu danych do najwyższego punktu danych). Oczywiście jest to tylko luźny pomysł, ponieważ dosłownie są to zakresy, a nie wariancje, ale to powinno pomóc ci zrozumieć.

Przeczytaj pytanie. I chociaż odniosłem się do najwyższej odpowiedzi, kilka udzielonych odpowiedzi jest znakomitych. Warto przeczytać je wszystkie.

— gung
źródło

3

Istnieje bardzo prosta, bezpośrednia i precyzyjna matematyczna odpowiedź na pierwotne pytanie.

Pierwszy komputer to liniowa kombinacja oryginalnych zmiennych , , , która maksymalizuje sumę statystyk podczas przewidywania oryginalnych zmiennych jako funkcji regresji kombinacji liniowej. $Y_1$ $Y_2$ $\dots$ $Y_p$ $R_i^2$

Dokładnie, współczynniki , , , w pierwszym komputerze, , dają maksymalną wartość , gdzie maksimum jest uwzględniane we wszystkich możliwych kombinacjach liniowych. $a_1$ $a_2$ $\dots$ $a_p$ $PC_1 = a_1Y_1 + a_2Y_2 + \cdots + a_pY_p$ $\sum_{i=1}^p R_i^2(Y_i | PC_1)$

W tym sensie można zinterpretować pierwszy komputer jako maksymalizator „wyjaśnionej wariancji”, a dokładniej jako maksymalizator „wyjaśnionej wariancji całkowitej”.

Jest to „maksymalizator” a nie „maksymalizator”, ponieważ wszelkie współczynniki proporcjonalne , dla , dadzą to samo maksimum. Dobrym produktem ubocznym tego wyniku jest to, że ograniczenie długości jednostki nie jest konieczne, poza tym, że jako urządzenie wymyśliło „maksymalizator”. $b_i = c\times a_i$ $c \neq 0$

Odniesienia do oryginalnej literatury i rozszerzeń, patrz

Westfall, PH, Arias, AL i Fulton, LV (2017). Nauczanie głównych składników za pomocą korelacji, wielowymiarowe badania behawioralne, 52, 648-660.

— Peter Westfall
źródło

0

Pomyśleć o jako zmienną losową jest wynika z dwóch nowych zmiennych losowych i . dlaczego to robimy Może jest złożone, ale i są mniej złożone. Tak czy inaczej, część wariancji wyjaśnia tych i . . Zastosowanie tego do regresji liniowej jest proste. Pomyśl o będącym a oznacza , a następnie . Część wariancji w $Y=A+B$ $Y$ $A$ $B$ $Y$ $A$ $B$ $Y$ $A$ $B$ $var(Y) = var(A) + var (B) + 2cov(A,B)$ $A$ $b_0+b_1X$ $B$ $e$ $Y=b_0+b_1X+e$ $Y$ wyjaśniono linią regresji, . $b_0+b_1X$

Używamy „odsetek wariancji” terminu, ponieważ chcemy, aby obliczyć, ile linia regresji jest przydatna do przewidzenia (lub modelu) . $Y$

— Młody
źródło

Powinieneś sprawdzić swoją formułę pod kątem wariancji Y: to nie jest poprawne. Co ważniejsze, próba wyjaśnienia regresji nie scharakteryzuje poprawnie PCA ani sposobów, w jakie ludzie myślą o tym i go wykorzystują.

— whuber

1

Ty, naprawiono błąd we wzorze. Moja odpowiedź dotyczy drugiej części pytania dotyczącej proporcji wariancji wyjaśnionej linią regresji.

— Młody