Jaka jest intuicja stojąca za SVD?

Czytałem o rozkładzie wartości pojedynczej (SVD). W prawie wszystkich podręcznikach wspomniano, że rozkłada macierz na trzy macierze o podanej specyfikacji.

Ale jaka jest intuicja dzielenia macierzy w takiej formie? PCA i inne algorytmy redukcji wymiarów są intuicyjne w tym sensie, że algorytm ma ładną właściwość wizualizacji, ale w przypadku SVD tak nie jest.

— SHASHANK GUPTA
źródło

Możesz zacząć od intuicji rozkładu wartości własnej i wektora własnego, ponieważ SVD jest jego rozszerzeniem dla wszystkich rodzajów matryc, a nie tylko kwadratowych.

— JohnK

W Internecie jest wiele notatek i odpowiedzi na CV o SVD i jego funkcjonowaniu.

— Vladislavs Dovgalecs

SVD można uważać za algorytm kompresji / uczenia się. Jest to dekompresor sprężarki liniowej. Macierz M może być reprezentowana przez pomnożenie SVD. S jest kompresorem V określa, ile błędów chciałbyś (kompresja stratna), a D jest dekompresorem. Jeśli zachowasz wszystkie wartości diagonalne V, masz sprężarkę bezstratną. Jeśli zaczniesz wyrzucać małe liczby pojedyncze (je zerujesz), nie możesz dokładnie zrekonstruować początkowej macierzy, ale nadal będzie blisko. Tutaj termin zamknięcia mierzy się normą Frobenius.

— Cagdas Ozgenc

@ Cagdas, jeśli to zrobisz, proszę dokładnie zdefiniować, co bierzesz „S”, „V” i „D”, aby być matematycznym. Nigdy wcześniej nie widziałem, by inicjały były przeciążone w samej notacji (która zawiera na przykład osobliwe wartości?). Wydaje się, że może to być źródłem zamieszania,

— Glen_b

Czy wiesz, jak oszacować PCA za pomocą SVD? Jeśli tak, to czy możesz wyjaśnić, dlaczego uważasz, że czegoś brakuje w twoim rozumieniu SVD? Zobacz to

— Aksakal,

Odpowiedzi:

Zapisz SVD macierzy (rzeczywistej, ) jako gdzie to , to przekątna a to . Jeśli chodzi o kolumny macierzy i , możemy napisać $X$ $n\times p$

X = U D V^{T}

$X = U D V^T$

U

$U$

n \times p

$n\times p$

D

$D$

p \times p

$p\times p$

V^{T}

$V^T$

p \times p

$p\times p$

U

$U$

V

$V$

X = \sum_{i = 1}^{p} d_{i} u_{i} v_{i}^{T}

$X=\sum_{i=1}^p d_i u_i v_i^T$ . To pokazuje

zapisany jako suma macierzy

rank-1. Jak wygląda matryca rangi 1? Zobaczmy:

Wiersze są proporcjonalne, a kolumny proporcjonalne.

X

$X$

p

$p$

(\begin{matrix} 1 \\ 2 \\ 3 \end{matrix}) (\begin{matrix} 4 & 5 & 6 \end{matrix}) = (\begin{matrix} 4 & 5 & 6 \\ 8 & 10 & 12 \\ 12 & 15 & 18 \end{matrix})

$\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix} \begin{pmatrix} 4 & 5 & 6 \end{pmatrix} = \begin{pmatrix} 4 & 5 & 6 \\ 8 & 10 & 12 \\ 12 & 15 & 18 \end{pmatrix}$

Pomyśl teraz o jako zawierającym wartości w skali szarości czarno-białego obrazu, każdy wpis w macierzy reprezentuje jeden piksel. Na przykład następujące zdjęcie pawiana: $X$

Następnie wczytaj ten obraz do R i pobierz część macierzową wynikowej struktury, być może używając biblioteki pixmap.

Jeśli potrzebujesz przewodnika krok po kroku, jak odtworzyć wyniki, możesz znaleźć kod tutaj .

Oblicz SVD:

baboon.svd  <-  svd(bab) # May take some time

$512 \times 512$ $512$ $512$ $1$ $20$

baboon.1  <-  sweep(baboon.svd$u[,1,drop=FALSE],2,baboon.svd$d[1],"*") %*%
                   t(baboon.svd$v[,1,drop=FALSE])

baboon.20 <-  sweep(baboon.svd$u[,1:20,drop=FALSE],2,baboon.svd$d[1:20],"*") %*%
                   t(baboon.svd$v[,1:20,drop=FALSE])

w wyniku czego powstają następujące dwa obrazy:

Po lewej stronie możemy łatwo zobaczyć pionowe / poziome paski na obrazie rangi 1.

$20$

Co jest dość interesujące: widzimy fragmenty oryginalnego obrazu, które trudno jest przedstawić jako superpozycję pionowych / poziomych linii, głównie ukośne włosy na nosie i trochę tekstury oraz oczy!

— kjetil b halvorsen
źródło

Myślę, że miałeś na myśli rekonstrukcję niskiej rangi, a nie niski zasięg. Nieważne. To bardzo dobra ilustracja (+1). Dlatego jest to dekompresor z kompresorem liniowym. Obraz jest przybliżony liniami. Jeśli faktycznie wykonasz podobny autoencoder z siecią neuronową z liniowymi funkcjami aktywacji, zobaczysz, że pozwala on również na linie o dowolnym nachyleniu nie tylko linii pionowych i poziomych, co czyni go nieco mocniejszym niż SVD.

— Cagdas Ozgenc

X = U Σ V^{*}

$X = U \Sigma V^*$

n \times p

$n \times p$

X

$X$

U

$U$

n \times n

$n \times n$

Σ

$\Sigma$

n \times p

$n \times p$

V

$V$

p \times p

$p \times p$

Zobacz math.stackexchange.com/questions/92171/... niektórych innych przykładów

— Kjetil b Halvorsen

@ kjetil-b-halvorsen Chciałbym wiedzieć, jak zmieniłaby się opis, gdybym użył PCA do odrzucenia wniosku. Byłbym wdzięczny, gdybyś mógł odpowiedzieć na moje pytanie tutaj stats.stackexchange.com/questions/412123/…

— Dushyant Kumar

@CowboyTrader ciekawa obserwacja. Moje rozumienie uczenia maszynowego / sieci neuronowej jest dość ograniczone. Więc nie rozumiem, że jeśli ktoś ma jeden hałaśliwy obraz i nie ma nic innego do trenowania, jak działałaby sieć neuronowa?

— Dushyant Kumar

$A$ $m \times n$ $m \geq n$ $v$ $A$

\begin{aligned} (1) & v_{1} = & \arg max_{v \in R^{n}} ‖ A v ‖_{2} \\ subject to ‖ v ‖_{2} = 1. \end{aligned}

$\begin{align} \tag{1}v_1 = \,\,& \arg \max_{v \in \mathbb R^n} \quad \| A v \|_2 \\ & \text{subject to } \, \|v\|_2 = 1. \end{align}$

v_{1}

$v_1$

A

$A$

\begin{aligned} v_{2} = & \arg max_{v \in R^{n}} ‖ A v ‖_{2} \\ subject to ⟨ v_{1}, v ⟩ = 0, \\ ‖ v ‖_{2} = 1. \end{aligned}

$\begin{align} v_2 = \,\,& \arg \max_{v \in \mathbb R^n} \quad \| A v \|_2 \\ & \text{subject to } \,\langle v_1, v \rangle = 0, \\ & \qquad \qquad \, \, \, \, \|v\|_2 = 1. \end{align}$

v_{1}, \dots, v_{n}

$v_1, \ldots, v_n$

R^{n}

$\mathbb R^n$

R^{n}

$\mathbb R^n$

A

$A$

Niech (więc określa moc wybuchową w kierunku ). Załóżmy, że wektory jednostkowe są zdefiniowane tak, że Równania (2) można wyrazić zwięźle za pomocą notacji macierzowej jako gdzie jest macierzą , której ta kolumna to , jest macierzą , której kolumna to , a $\sigma_i = \|A v_i \|_2$ $\sigma_i$ $A$ $v_i$ $u_i$

\begin{matrix} (2) & A v_{i} = σ_{i} u_{i} for i = 1, \dots, n . \end{matrix}

$\tag{2} A v_i = \sigma_i u_i \quad \text{for } i = 1, \ldots, n.$

\begin{matrix} (3) & A V = U Σ, \end{matrix}

$\tag{3} A V = U \Sigma,$

V

$V$

n \times n

$n \times n$

i

$i$

v_{i}

$v_i$

U

$U$

m \times n

$m \times n$

i

$i$

u_{i}

$u_i$

Σ

$\Sigma$ jest macierzą diagonalną, której tym wpisem jest . Macierz jest ortogonalna, więc możemy pomnożyć obie strony (3) przez aby otrzymać Może się wydawać, że wyprowadziliśmy SVD z przy prawie zerowym wysiłku. Żaden z dotychczasowych kroków nie był trudny. Brakuje jednak kluczowego fragmentu obrazu - nie wiemy jeszcze, że jest ortogonalny.

n \times n

$n \times n$

i

$i$

σ_{i}

$\sigma_i$

V

$V$

V^{T}

$V^T$

A = U Σ V^{T} .

$A = U \Sigma V^T.$

A

$A$

U

$U$

Oto kluczowy fakt, brakujący element: okazuje się, że jest prostopadła do : Twierdzę, że jeśli to nie była prawda, to nie byłoby optymalne dla problemu (1). Rzeczywiście, jeśli (4) nie byłby spełniony, wówczas można by ulepszyć , zaburzając go nieco w kierunku . $A v_1$ $A v_2$

\begin{matrix} (4) & ⟨ A v_{1}, A v_{2} ⟩ = 0. \end{matrix}

$\tag{4} \langle A v_1, A v_2 \rangle = 0.$ $v_1$

v_{1}

$v_1$

v_{2}

$v_2$

Załóżmy (dla sprzeczności), że (4) nie jest spełniony. Jeśli jest lekko zaburzone w kierunku ortogonalnym , norma się nie zmienia (lub przynajmniej zmiana normy jest nieistotna). Kiedy chodzę po powierzchni ziemi, moja odległość od jej środka nie zmienia się. Jednakże, gdy jest zaburzone w kierunku , wektor jest zaburzony w nieortogonalnym kierunku , a zatem zmiana normy jest nieistotna . Norma $v_1$ $v_2$ $v_1$ $v_1$ $v_1$ $v_2$ $A v_1$ $A v_2$ $A v_1$ $A v_1$ można zwiększyć o nie mniej znaczącą kwotę. Oznacza to, że nie jest optymalny dla problemu (1), co jest sprzecznością. Podoba mi się ten argument, ponieważ: 1) intuicja jest bardzo jasna; 2) intuicję można przekształcić bezpośrednio w rygorystyczny dowód. $v_1$

Podobny argument pokazuje, że jest ortogonalny zarówno dla i i tak dalej. Wektory są parami ortogonalne. Oznacza to, że wektory jednostkowe mogą być wybrane jako pary ortogonalne, co oznacza, że macierz powyżej jest macierzą ortogonalną. To kończy nasze odkrycie SVD. $A v_3$ $A v_1$ $A v_2$ $A v_1, \ldots, A v_n$ $u_1, \ldots, u_n$ $U$

Aby przekonwertować powyższy intuicyjny argument na rygorystyczny dowód, musimy skonfrontować fakt, że jeśli jest zakłócony w kierunku , zaburzony wektor nie jest w rzeczywistości wektorem jednostkowym. (Jego normą jest .) Aby uzyskać dokładny dowód, zdefiniuj Wektor jest naprawdę wektorem jednostkowym. Ale jak można łatwo wykazać, jeśli (4) nie jest spełniony, to dla wystarczająco małych wartości mamy (przy założeniu, że znak $v_1$ $v_2$

{\tilde{v}}_{1} = v_{1} + ϵ v_{2}

$\tilde v_1 = v_1 + \epsilon v_2$

\sqrt{1 + ϵ^{2}}

$\sqrt{1 + \epsilon^2}$

{\bar{v}}_{1} (ϵ) = \sqrt{1 - ϵ^{2}} v_{1} + ϵ v_{2} .

$\bar v_1(\epsilon) = \sqrt{1 - \epsilon^2} v_1 + \epsilon v_2.$

{\bar{v}}_{1} (ϵ)

$\bar v_1(\epsilon)$

ϵ

$\epsilon$

f (ϵ) = ‖ A {\bar{v}}_{1} (ϵ) ‖_{2}^{2} > ‖ A v_{1} ‖_{2}^{2}

$f(\epsilon) = \| A \bar v_1(\epsilon) \|_2^2 > \| A v_1 \|_2^2$

ϵ

$\epsilon$ jest wybrany poprawnie). Aby to pokazać, po prostu sprawdź, czy . Oznacza to, że nie jest optymalny dla problemu (1), co jest sprzecznością.

f^{'} (0) \neq 0

$f'(0) \neq 0$

v_{1}

$v_1$

(Nawiasem mówiąc, polecam czytanie wyjaśnienie Qiaochu juana z SVD tutaj . W szczególności przyjrzeć się „Key lemat # 1”, czyli to, co omówiono powyżej. Jak mówi Qiaochu, klucz lemat nr 1 to „serce techniczny o rozkładzie pojedynczej wartości ”.)

— littleO
źródło

Koleś, poświęć godzinę dnia i obejrzyj ten wykład: https://www.youtube.com/watch?v=EokL7E6o1AE

Ten facet jest bardzo bezpośredni, ważne jest, aby nie pominąć żadnego z nich, ponieważ w końcu wszystko się łączy. Nawet jeśli na początku może się to wydawać trochę powolne, próbuje określić punkt krytyczny, co robi!

Podsumuję to dla ciebie, zamiast po prostu dać ci trzy matryce, które wszyscy robią (ponieważ to mnie pomyliło, gdy przeczytałem inne opisy). Skąd się biorą te matryce i dlaczego tak to konfigurujemy? Wykład to gwoździe! Każdą macierz (kiedykolwiek w historii wieczności) można zbudować z macierzy podstawowej o tych samych wymiarach, a następnie obrócić ją i rozciągnąć (jest to podstawowe twierdzenie algebry liniowej). Każda z tych trzech matryc, którymi ludzie się rzucają, reprezentuje macierz początkową (U), macierz skalowania A (sigma) i macierz obrotu (V).

Macierz skalowania pokazuje, które wektory obrotu dominują, są to tak zwane wartości osobliwe. Rozkład rozwiązuje się dla U, sigma i V.

— Tim Johnsen
źródło