Dlaczego ilość wariancji wyjaśniona przez mój pierwszy komputer jest tak bliska średniej korelacji par?

9

Jaki jest związek między pierwszymi głównymi komponentami i średnią korelacją w macierzy korelacji?

Na przykład w aplikacji empirycznej obserwuję, że średnia korelacja jest prawie taka sama jak stosunek wariancji pierwszego głównego składnika (pierwszej wartości własnej) do całkowitej wariancji (suma wszystkich wartości własnych).

Czy istnieje związek matematyczny?

Poniżej znajduje się wykres wyników empirycznych. Tam, gdzie korelacja jest średnią korelacją między zwrotami składnika indeksu giełdowego DAX, obliczoną dla 15-dniowego kroczącego okna, a wyjaśnioną wariancją jest udział wariancji wyjaśniony przez pierwszy główny składnik, również obliczony dla 15-dniowego kroczącego okna.

Czy można to wytłumaczyć wspólnym modelem czynników ryzyka, takim jak CAPM?

wprowadź opis zdjęcia tutaj

— Student
źródło

1

Jak myślisz, co się stanie, gdy wiele korelacji będzie ujemnych lub bliskich zeru? Na przykład wygeneruj pewne dwuwymiarowe normalne dane z zerową korelacją. Dlaczego miałbyś oczekiwać związku między współczynnikiem wariancji a tą zerową korelacją?

— whuber

6

Uważam, że związek między średnią korelacją a wartością własną pierwszego komputera istnieje, ale nie jest wyjątkowy. Nie jestem matematykiem, aby móc to wywnioskować, ale mogę przynajmniej wskazać punkt początkowy, z którego może wyrosnąć intuicja lub myśl.

Jeśli narysujesz znormalizowane zmienne jako wektory w przestrzeni euklidesowej, która je osadza (a jest to ograniczona przestrzeń, w której osie są obserwacjami), korelacja jest cosinus między dwoma wektorami .

wprowadź opis zdjęcia tutaj

Ponieważ wszystkie wektory mają długość jednostkową (z powodu standaryzacji), cosinusy są rzutami wektorów na siebie (jak pokazano na lewym obrazku z trzema zmiennymi). The 1st PC jest taka linia w tej przestrzeni, która maksymalizuje sumę kwadratów występami na nią, a „s, zwane obciążenia; i ta suma jest pierwszą wartością własną.

Tak więc, gdy ustalisz związek między średnią z trzech rzutów po lewej stronie z sumą (lub średnią) trzech kwadratowych rzutów po prawej stronie, odpowiadasz na pytanie dotyczące związku między średnią korelacją a wartością własną.

— ttnphns
źródło

6

Wydaje mi się, że tutaj wszystkie zmienne były ze sobą pozytywnie skorelowane. W tym przypadku 1. komputer dość często okazuje się być bardzo zbliżony do średniej wszystkich zmiennych. Jeśli wszystkie zmienne są dodatnio skorelowane z dokładnie tym samym współczynnikiem korelacji , to 1. PC jest dokładnie proporcjonalny do średniej wszystkich zmiennych, jak wyjaśniam tutaj: Czy uśrednianie wszystkich zmiennych można postrzegać jako surową formę PCA? $c$

W tym prostym przypadku można faktycznie wyprowadzić matematycznie związek, o który pytasz. Rozważ macierz korelacji wielkości, która wygląda następująco:Jego pierwszy wektor własny jest równy , co odpowiada średniej [skalowanej] wszystkich zmiennych. Jego wartość własna to . Suma wszystkich wartości własnych, jeśli oczywiście podana jako suma wszystkich elementów po przekątnej, tj. . Tak więc proporcja wyjaśnionej wariancji dla pierwszego komputera jest równa $n\times n$

(\begin{matrix} 1 & do & do & do \\ do & 1 & do & do \\ do & do & 1 & do \\ do & do & do & 1 \end{matrix}) .

$\left(\begin{array}{}1&c&c&c\\c&1&c&c\\c&c&1&c\\c&c&c&1\end{array} \right).$

(1, 1, 1, 1)^{⊤} / \sqrt{n}

$(1,1,1,1)^\top/\sqrt{n}$

λ_{1} = 1 + (n - 1) c

$\lambda_1=1+(n-1)c$

\sum λ_{i} = n

$\sum \lambda_i=n$

R^{2)} = \frac{1}{n} + \frac{n - 1}{n} do \approx do .

$R^2=\frac{1}{n}+\frac{n-1}{n}c \approx c.$

Tak więc w tym najprostszym przypadku odsetek wyjaśnionej wariancji przez pierwszy komputer jest w 100% skorelowany ze średnią korelacją, a dla dużego jest w przybliżeniu równy. Właśnie to widzimy na twojej działce. $n$

Oczekuję, że w przypadku dużych macierzy wynik ten zostanie w przybliżeniu zachowany, nawet jeśli korelacje nie będą dokładnie identyczne.

Aktualizacja. Używając liczby zamieszczonej w pytaniu, można nawet spróbować oszacować , zauważając, że . Jeśli weźmiemy i , to otrzymamy . PO stwierdził, że dane były „indeksem giełdowym DAX”; przeglądając go, widzimy , że najwyraźniej składa się z zmiennych. Niezły mecz. $n$ $n=(1-c)/(R^2-c)$ $c=0.5$ $R^2-c=0.02$ $n=25$ $30$

— ameba
źródło