To, co rozumie się przez wariancję w kilku wymiarach („wariancja całkowita”), jest po prostu sumą wariancji w każdym wymiarze. Matematycznie jest to ślad macierzy kowariancji: ślad jest po prostu sumą wszystkich elementów ukośnych. Ta definicja ma różne ładne właściwości, np. Ślad jest niezmienny w ortogonalnych transformacjach liniowych, co oznacza, że jeśli obrócisz osie współrzędnych, całkowita wariancja pozostanie taka sama.
W książce Bishopa (rozdział 12.1.1) udowodniono, że wiodący wektor własny macierzy kowariancji podaje kierunek maksymalnej wariancji. Drugi wektor własny podaje kierunek maksymalnej wariancji pod dodatkowym ograniczeniem, że powinien on być prostopadły do pierwszego wektora własnego itp. (Wierzę, że stanowi to ćwiczenie 12.1). Jeśli celem jest maksymalizacja całkowitej wariancji w podprzestrzeni 2D, ta procedura jest zachłanną maksymalizacją: najpierw wybierz jedną oś, która maksymalizuje wariancję, a następnie drugą.
Twoje pytanie brzmi: dlaczego ta zachłanna procedura osiąga globalne maksimum?
Oto miły argument, który @whuber zasugerował w komentarzach. Najpierw wyrównajmy układ współrzędnych z osiami PCA. Macierz kowariancji staje się diagonalna: . Dla uproszczenia rozważymy ten sam przypadek 2D, tj. Jaka jest płaszczyzna o maksymalnej całkowitej wariancji? Chcemy udowodnić, że jest to płaszczyzna podana przez dwa pierwsze wektory podstawowe (o całkowitej wariancji ).Σ = d i a g (λja)λ1+λ2)
Rozważ płaszczyznę rozpiętą na dwóch wektorach ortogonalnych i . Całkowita wariancja w tej płaszczyźnie wynosiJest to więc liniowa kombinacja wartości własnych ze współczynnikami, które wszystkie są dodatnie, nie przekraczają (patrz poniżej) i sumują się do . Jeśli tak, to prawie oczywiste jest, że maksimum osiągnięto w .uv
u⊤Σ U +v⊤Σ v = ∑λjau2)ja+ ∑λjav2)ja= ∑λja(u2)ja+v2)ja) .
λja12)λ1+λ2)
Pozostaje tylko wykazać, że współczynniki nie mogą przekraczać . Zauważ, że , gdzie jest wektorem podstawowym. Wielkość ta jest kwadratową długością rzutu na płaszczyznę rozpiętą przez i . Dlatego musi być mniejsza niż kwadratowa długość która jest równa , QED.1u2)k+v2)k= ( u ⋅ k)2)+ ( v ⋅ k)2)kkkuvk|k|2=1
Zobacz także odpowiedź @ kardynała na Jaka jest funkcja celu PCA? (kieruje się tą samą logiką).