Wydaje mi się, że tutaj wszystkie zmienne były ze sobą pozytywnie skorelowane. W tym przypadku 1. komputer dość często okazuje się być bardzo zbliżony do średniej wszystkich zmiennych. Jeśli wszystkie zmienne są dodatnio skorelowane z dokładnie tym samym współczynnikiem korelacji , to 1. PC jest dokładnie proporcjonalny do średniej wszystkich zmiennych, jak wyjaśniam tutaj: Czy uśrednianie wszystkich zmiennych można postrzegać jako surową formę PCA?do
W tym prostym przypadku można faktycznie wyprowadzić matematycznie związek, o który pytasz. Rozważ macierz korelacji wielkości, która wygląda następująco:Jego pierwszy wektor własny jest równy , co odpowiada średniej [skalowanej] wszystkich zmiennych. Jego wartość własna to . Suma wszystkich wartości własnych, jeśli oczywiście podana jako suma wszystkich elementów po przekątnej, tj. . Tak więc proporcja wyjaśnionej wariancji dla pierwszego komputera jest równan × n
⎛⎝⎜⎜⎜1dodododo1dodododo1dodododo1⎞⎠⎟⎟⎟.
( 1 , 1 , 1 , 1)⊤/n--√λ1= 1 + ( n - 1 ) c∑λja= nR2)=1n+n - 1nc ≈ c .
Tak więc w tym najprostszym przypadku odsetek wyjaśnionej wariancji przez pierwszy komputer jest w 100% skorelowany ze średnią korelacją, a dla dużego jest w przybliżeniu równy. Właśnie to widzimy na twojej działce.n
Oczekuję, że w przypadku dużych macierzy wynik ten zostanie w przybliżeniu zachowany, nawet jeśli korelacje nie będą dokładnie identyczne.
Aktualizacja. Używając liczby zamieszczonej w pytaniu, można nawet spróbować oszacować , zauważając, że . Jeśli weźmiemy i , to otrzymamy . PO stwierdził, że dane były „indeksem giełdowym DAX”; przeglądając go, widzimy , że najwyraźniej składa się z zmiennych. Niezły mecz.nn = ( 1 - c ) / (R2)- c )c = 0,5R2)- c = 0,02n = 2530