Liniowość PCA

35

PCA jest uważana za procedurę liniową, jednak:

P C A (X) \neq P C A (X_{1}) + P C A (X_{2}) + \dots + P C A (X_{n}),

$\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n),$

gdzie . To znaczy, że wektory własne uzyskane przez PCA na macierzach danych nie sumują się do zrównania wektorów własnych uzyskanych przez PCA z sumą macierzy danych . Ale nie jest to definicja funkcji liniowej która: $X=X_1+X_2+\ldots+X_n$ $X_i$ $X_i$ $f$

f (x + y) = f (x) + f (y) ?

$f(x+y)=f(x)+f(y)?$

Dlaczego PCA jest uważane za „liniowe”, jeśli nie spełnia tego bardzo podstawowego warunku liniowości?

pca linear

— AlphaOmega
źródło

Kiedyś napisałem lub usłyszałem (przepraszam, nie pamiętam gdzie i kiedy), że PCA „należy do rodziny procedur liniowych”, ponieważ opiera się na liniowych zależnościach między zmiennymi. Wykorzystuje macierz korelacji Pearsona i szuka kombinacji liniowych o największej wariancji.

— Łukasz Deryło,

4

Natura tego pytania może stać się nieco jaśniejsza, biorąc pod uwagę znacznie prostsze i rutynowe ustawienie zwykłej regresji metodą najmniejszych kwadratów: jest to archetyp liniowej procedury statystycznej. Niemniej jednak proces szacowania współczynników najmniejszych kwadratów jest wyraźnie nieliniową funkcją macierzy danych , o czym świadczy wzór . (Zauważ, że jest to funkcja liniowa wektora odpowiedzi .)

X

$X$

\hat{β} = (X^{'} X)^{- 1} X^{'} y

$\hat\beta = (X^\prime X)^{-1}X^\prime y$

y

$y$

— whuber

4

Warto pamiętać, że f (x) = x + 1 jest również „funkcją liniową” ... ale nie spełnia tego, co właśnie powiedziałeś ... co powinno coś wyjaśnić.

— Mehrdad,

To dlatego, że

(X_{1} + X_{2})^{T} (X_{1} + X_{2}) \neq X_{1}^{T} X_{1} + X_{2}^{T} X_{2}

$(X_1+X_2)^T(X_1+X_2)\neq X_1^TX_1+X_2^TX_2$

— Gabriel Romon

39

Kiedy mówimy, że PCA jest metodą liniową, odnosimy się do mapowania zmniejszającego wymiary z przestrzeni o wysokich wymiarach do przestrzeni o niższych wymiarach . W PCA to odwzorowanie jest podane przez pomnożenie przez macierz wektorów własnych PCA, a zatem jest ewidentnie liniowe (mnożenie macierzy jest liniowe):Jest to w przeciwieństwie do nieliniowych metod redukcji wymiarowości , w których mapowanie zmniejszające wymiarowość może być nieliniowe. $f:\mathbf x\mapsto \mathbf z$ $\mathbb R^p$ $\mathbb R^k$ $\mathbf x$

z = f (x) = V^{⊤} x .

$\mathbf z = f(\mathbf x) = \mathbf V^\top \mathbf x.$

Z drugiej strony, najwyższych wektorów własnych oblicza się z macierzy danych przy użyciu tego, co nazwałeś w twoim pytaniu: a to mapowanie jest z pewnością nieliniowe: obejmuje obliczenie wektorów własnych macierzy kowariancji, co jest procedurą nieliniową . (Jako trywialny przykład, mnożenie przez zwiększa macierz kowariancji o , ale jej wektory własne pozostają takie same, jak są znormalizowane, aby miały długość jednostkową.) $k$ $\mathbf V\in \mathbb R^{p\times k}$ $\mathbf X\in \mathbb R^{n\times p}$ $\mathrm{PCA}()$

V = P C A (X),

$\mathbf V = \mathrm{PCA}(\mathbf X),$

X

$\mathbf X$

2

$2$

4

$4$

— ameba mówi Przywróć Monikę
źródło

To, że otrzymałem 35 głosów pozytywnych za tę trywialną odpowiedź, jest dość śmieszne (i wynika głównie z tego, że ten wątek jest przez jakiś czas w Hot Network Questions).

— ameba mówi Przywróć Monikę

5

„Liniowy” może oznaczać wiele rzeczy i nie jest stosowany wyłącznie w sposób formalny.

PCA nie jest często definiowane jako funkcja w sensie formalnym, dlatego też nie oczekuje się, że spełni wymagania dotyczące funkcji liniowej, gdy zostanie opisana jako taka. Jest to częściej opisywane, jak powiedziałeś, jako procedura, a czasem algorytm (chociaż nie podoba mi się ta ostatnia opcja). Często mówi się, że jest liniowy w nieformalny, nie dokładnie zdefiniowany sposób.

PCA można na przykład uznać za liniowe w następującym znaczeniu. Należy do rodziny metod, które uważają, że każda zmienna może być aproksymowana funkcją gdzie a to zbiór zmiennych z pewnymi pożądanymi własność. W przypadku PCA jest zbiorem zmiennych niezależnych, które można zmniejszyć licznością przy minimalnej utracie dokładności aproksymacji w konkretnym sensie. Są to pożądane właściwości w wielu ustawieniach. $X_i$

X_{i} \approx f_{Y} (α)

$X_i \approx f_Y(\alpha)$

α \in R^{k}

$\alpha \in \mathbb{R}^k$

Y

$Y$

k

$k$

Y

$Y$

Teraz, PCA, każdy jest ograniczony do postaci to jest kombinacja liniowa zmiennych . $f_i$

f_{Y} (α) = \sum_{i = 1}^{k} α_{i} Y_{i}

$f_Y(\alpha) = \sum_{i=1}^k \alpha_{i}Y_i$

Y

$Y$

Biorąc pod uwagę to ograniczenie, oferuje procedurę znajdowania optymalnych (w pewnym sensie) wartości i . Oznacza to, że PCA uważa tylko funkcje liniowe za prawdopodobne hipotezy. W tym sensie myślę, że można go słusznie opisać jako „liniowy”. $Y$ $\alpha_{ij}$

— broncoAbierto
źródło

3

PCA zapewnia / jest transformacją liniową.

Jeśli weźmiesz mapę powiązaną z określoną analizą, powiedz a następnie . $\mathbf{M} \equiv PCA(X_1 + X_2)$ $\mathbf{M}(X_1+X_2) = \mathbf{M}(X_1) + \mathbf{M}(X_2)$

Winowajcą jest to, że , i nie są tymi samymi transformacjami liniowymi. $PCA(X_1 + X_2)$ $PCA(X_1)$ $PCA(X_2)$

Dla porównania bardzo prosty przykład procesu wykorzystującego transformację liniową, ale nie będącego samą transformacją liniową:

Obrót który podwaja kąt wektora (powiedz punkt w 2-d przestrzeni euklidesowej) z jakimś wektorem odniesienia (powiedz ), nie jest transformacją liniową. Na przykład $D(\mathbf{v})$ $\mathbf{v}$ $\left[x,y\right]=\left[1,0\right]$

$D(\left[1,1\right]) \rightarrow \left[0,\sqrt{2}\right]$

i

$D(\left[0,1\right]) \rightarrow \left[-1,0\right]$

ale

$D(\left[1,1\right]+\left[0,1\right]=\left[1,2\right]) \rightarrow \left[-0.78,2.09\right] \neq \left[-1,\sqrt{2}\right]$

to podwojenie kąta, które obejmuje obliczenie kątów, nie jest liniowe i jest analogiczne do stwierdzenia ameby, że obliczenie wektora własnego nie jest liniowe

— Sextus Empiricus
źródło