Zakładając, że mam zestaw danych o wymiarach (np. ), dzięki czemu każdy wymiar to iid (alternatywnie każdy wymiar ) i niezależny od wzajemnie.
Teraz rysuję losowy obiekt z tego zestawu danych i biorę najbliższych sąsiadów i obliczam PCA na tym zestawie. W przeciwieństwie do tego, czego można się spodziewać, wartości własne nie są takie same. W 20 wymiarach jednolitych typowy wynik wygląda następująco:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
W przypadku normalnych danych rozproszonych wyniki wydają się bardzo podobne, przynajmniej przy przeskalowaniu ich do całkowitej sumy ( rozkład ma wyraźnie większą wariancję w pierwszej kolejności).
Zastanawiam się, czy jest jakiś wynik, który przewiduje takie zachowanie? Szukam testu, czy seria wartości własnych jest nieco regularna i ile wartości własnych jest zgodnych z oczekiwaniami, a które znacznie różnią się od wartości oczekiwanych.
Czy dla danej (małej) wielkości próby istnieje wynik, jeśli współczynnik korelacji dla dwóch zmiennych jest znaczący? Nawet zmienne iid będą czasami miały wynik inny niż 0 dla niskiego .