Szacowany rozkład wartości własnych dla danych identyfikacyjnych (jednolitych lub normalnych)

Zakładając, że mam zestaw danych o wymiarach (np. ), dzięki czemu każdy wymiar to iid (alternatywnie każdy wymiar ) i niezależny od wzajemnie. $d$ $d=20$ $X_i \sim U[0;1]$ $X_i \sim \mathcal N[0;1]$

Teraz rysuję losowy obiekt z tego zestawu danych i biorę najbliższych sąsiadów i obliczam PCA na tym zestawie. W przeciwieństwie do tego, czego można się spodziewać, wartości własne nie są takie same. W 20 wymiarach jednolitych typowy wynik wygląda następująco: $k=3\cdot d$

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

W przypadku normalnych danych rozproszonych wyniki wydają się bardzo podobne, przynajmniej przy przeskalowaniu ich do całkowitej sumy ( rozkład ma wyraźnie większą wariancję w pierwszej kolejności). $1$ $\mathcal N[0;1]^d$

Zastanawiam się, czy jest jakiś wynik, który przewiduje takie zachowanie? Szukam testu, czy seria wartości własnych jest nieco regularna i ile wartości własnych jest zgodnych z oczekiwaniami, a które znacznie różnią się od wartości oczekiwanych.

Czy dla danej (małej) wielkości próby istnieje wynik, jeśli współczynnik korelacji dla dwóch zmiennych jest znaczący? Nawet zmienne iid będą czasami miały wynik inny niż 0 dla niskiego . $k$ $k$

normal-distribution uniform eigenvalues

— Ma ZAKOŃCZENIE - Anony-Mus
źródło

hmmm, czy możesz wydrukować te wyniki z mniejszą liczbą fig? Nie mogę ich łatwo przeanalizować ...

— shabbychef

Jak widać, wielkość jest interesująca. Naiwnie można by oczekiwać, że wszystkie będą miały taką samą wielkość.

— Ma ZAKOŃCZENIE - Anony-Mousse

Istnieje duża literatura na temat rozkładu wartości własnych dla macierzy losowych (możesz wypróbować teorię macierzy losowych Google). W szczególności rozkład Marcenko-Pastura przewiduje rozkład wartości własnych dla macierzy kowariancji danych ze średnią zerową i równą wariancją, gdy liczba zmiennych i obserwacji osiąga nieskończoność. Ściśle związany jest rozkład półkoli Wignera. $i.i.d.$

— Jan
źródło