Zacznę od intuicyjnej demonstracji.
Wygenerowałem obserwacji (a) z silnie nie Gaussowskiego rozkładu 2D i (b) z 2D rozkładu Gaussa. W obu przypadkach wyśrodkowałem dane i wykonałem rozkład wartości w liczbie pojedynczej X = U S V ⊤ . Następnie dla każdego przypadku wykonałem wykres rozproszenia pierwszych dwóch kolumn U , jedna względem drugiej. Należy pamiętać, że jest to zwykle kolumny U S , które są nazywane „główne składniki” (PC); kolumny U są komputerami skalowanymi w celu uzyskania normy jednostkowej; Nadal, w tej odpowiedzi skupię się na kolumnach U . Oto wykresy rozrzutu:n=100X=USV⊤UUSUU
Myślę, że takie stwierdzenia, jak: „Składniki PCA są nieskorelowane” lub „Składniki PCA są zależne / niezależne” są zwykle tworzone o jednej konkretnej macierzy próbki i odnoszą się do korelacji / zależności między wierszami (patrz np . Odpowiedź @ ttnphns tutaj ). PCA daje transformowaną macierz danych U , gdzie wiersze są obserwacjami, a kolumny zmiennymi PC. Tj. Możemy zobaczyć U jako próbkę i zapytać, jaka jest próbka korelacji między zmiennymi PC. Ta przykładowa macierz korelacji jest oczywiście podana przez U ⊤ U = IXUUU⊤U=I, co oznacza, że przykładowe korelacje między zmiennymi PC są zerowe. To ludzie mają na myśli, mówiąc, że „PCA diagonalizuje macierz kowariancji” itp.
Wniosek 1: we współrzędnych PCA dowolne dane mają zerową korelację.
Dotyczy to obu powyższych wykresów rozrzutu. Jednakże, jest oczywiste, że te dwie zmienne PC i y w lewym (nie Gaussa) rozrzutu nie są niezależne; chociaż mają zerową korelację, są silnie zależne i w rzeczywistości powiązane przez y ≈ a ( x - b ) 2 . I rzeczywiście wiadomo, że nieskorelowane nie oznacza niezależnościxyy≈a(x−b)2 .
Przeciwnie, dwie zmienne PC i yxy po prawej stronie (Gaussa) rozrzutu wydają się być „prawie niezależny”. Obliczenie wzajemnej informacji między nimi (co jest miarą zależności statystycznej: zmienne niezależne mają zerową informację wzajemną) za pomocą dowolnego standardowego algorytmu da wartość bardzo zbliżoną do zera. Nie będzie dokładnie zero, ponieważ nigdy nie jest dokładnie zerowy dla dowolnej skończonej wielkości próbki (chyba że jest dokładnie dostrojony); ponadto istnieją różne metody obliczania wzajemnej informacji o dwóch próbkach, dające nieco inne odpowiedzi. Możemy jednak oczekiwać, że każda metoda da oszacowanie wzajemnej informacji, które jest bardzo bliskie zeru.
Wniosek 2: we współrzędnych PCA dane Gaussa są „prawie niezależne”, co oznacza, że standardowe szacunki zależności będą w przybliżeniu równe zeru.
Pytanie to jest jednak trudniejsze, na co wskazuje długi łańcuch komentarzy. Rzeczywiście, @whuber prawidłowo wskazuje, że PCA zmiennych i y (kolumny U ) musi być statystycznie zależne: słupy muszą być o długości jednostkowej i muszą być prostopadłe i wprowadza to zależność. Np. Jeśli jakaś wartość w pierwszej kolumnie jest równa 1 , to odpowiednia wartość w drugiej kolumnie musi wynosić 0 .xyU10
To prawda, ale jest to praktycznie istotne tylko dla bardzo małych , takich jak np. N = 3 (przy n = 2 po centrowaniu jest tylko jeden komputer). Dla każdej rozsądnej wielkości próbki, takiej jak n = 100 pokazanej na mojej powyższej ilustracji, efekt zależności będzie znikomy; kolumny U są (skalowanymi) rzutami danych Gaussa, więc są one również gaussowskie, co praktycznie uniemożliwia, aby jedna wartość była bliska 1 (wymagałoby to, aby wszystkie inne elementy n - 1 były bliskie 0nn=3n=2n=100U1n−10 , co nie jest trudne rozkład Gaussa).
Wniosek 3: ściśle mówiąc, dla każdego skończonego dane Gaussa we współrzędnych PCA są zależne; jednak ta zależność jest praktycznie nieistotna dla żadnego n ≫ 1 .nn≫1
Możemy to sprecyzować, biorąc pod uwagę, co dzieje się w granicy . W granicy nieskończonej wielkości próbki macierz kowariancji próbki jest równa macierzy kowariancji populacji Σ . Tak więc, jeśli wektor danych X jest próbkowany z → X ~ N ( 0 , Σ ) , a następnie zmienne komputerowe są → Y = X - 1 / 2 V ⊤ → X / ( n - 1 ) (gdzie Λ i Vn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛVsą wartościami własnymi i wektorami własnymi ) i → Y ∼ N ( 0 , I / ( n - 1 ) ) . Tzn. Zmienne PC pochodzą z wielowymiarowego Gaussa z kowariancją ukośną. Ale każdy wielowymiarowy Gaussa z ukośną macierzą kowariancji rozkłada się na iloczyn jednowymiarowego Gaussa, a to jest definicja statystycznej niezależności :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Wniosek 4: asymptotycznie ( ) zmienne PC danych gaussowskich są statystycznie niezależne jako zmienne losowe, a wzajemne informacje o próbce dadzą zerową wartość populacji.n→∞
Powinienem zauważyć, że można inaczej zrozumieć to pytanie (patrz komentarze @whuber): aby uznać całą macierz za zmienną losową (uzyskaną z losowej macierzy X za pomocą określonej operacji) i zapytać, czy są jakieś dwa określone elementy U i J and U k l z dwóch różnych kolumn są statystycznie niezależne w różnych czerpie z X . Zbadaliśmy to pytanie wUXUijUklX późniejszym wątku .
Oto wszystkie cztery wstępne wnioski z powyższego:
- We współrzędnych PCA wszystkie dane mają zerową korelację.
- We współrzędnych PCA dane Gaussa są „prawie niezależne”, co oznacza, że standardowe szacunki zależności będą wynosić około zera.
- nn≫1
- n→∞