Zrozumienie dekompozycji pojedynczej wartości w kontekście LSI

Moje pytanie dotyczy generalnie pojedynczej dekompozycji wartości (SVD), a zwłaszcza Latent Semantic Indexing (LSI).

Powiedzmy, że mam który zawiera częstotliwości 5 słów dla 7 dokumentów. $A_{word \times document}$

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

Uzyskać faktoryzacji macierzy do za pomocą SVD: . $A$ $A = U \cdot D \cdot V^T$

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

W 1 i 2 stwierdzono, że:

$WordSim = U \cdot S$ podaje macierz podobieństwa wyrazów , gdzie wiersze reprezentują różne słowa. $WordSim$

WordSim = s$u %*% S

$DocSim= S \cdot V^T$ daje macierz podobieństwa dokumentu, w której kolumny reprezentują różne dokumenty. $DocSim$

DocSim = S %*% t(s$v)

Pytania:

Algebraicznie, dlaczego macierze podobieństwa wyrazów i dokumentów i ? Czy istnieje intuicyjne wyjaśnienie? $WordSim$ $DocSimS$
Czy na podstawie podanego przykładu R możemy dokonać jakichkolwiek intuicyjnych obserwacji liczby / podobieństwa słów, po prostu patrząc na i (bez użycia podobieństwa cosinus lub współczynnika korelacji między wierszami / kolumnami)? $WordSim$ $DocSim$

wprowadź opis zdjęcia tutaj

r svd natural-language latent-semantic-indexing

— Zhubarb
źródło

Niewiele wiem o LSI, ale SVD macierzy jest rdzeniem liniowej redukcji wymiarowości, metod mapowania, takich jak główne składniki, biploty, analiza korespondencji. Głównymi „prawami” SVD jest to, że = rzut rzędów na główne osie; i = rzut kolumn na główne osie. W pewnym sensie są to wartości „podobieństwa” między punktami (rzędami lub kolumnami) a osiami głównymi. To, czy można to potraktować jako podobieństwo między samymi punktami, zależy od kontekstu.

A V = U D

$AV=UD$

A

$A$

A^{'} U = V D^{'}

$A'U=VD'$

A

$A$

— ttnphns

Ach .. W Wikipedii widzę, że LSI to tylko analiza korespondencji (CA). Tak lepiej CA jest dwójką specjalnie przygotowanej tabeli danych. Wyżej wymienione rzuty lub współrzędne - używasz ich do kreślenia punktów rzędów i kolumn w przestrzeni głównych osi. Bliskość między punktami wiersz-wiersz, kolumna-kolumna i kolumna-wiersz odnoszą się do ich podobieństwa. Jednak układ wykresu zależy od tego, w jaki sposób rozkładasz bezwładność (wariancję) na wiersz i punkty kol.

— ttnphns

@ttnphns. Dziękuję, czy możesz podać odniesienie do: „ = rzut rzędów A na główne osie; i = rzut kolumn A na główne osie”? Myślę, że to dla mnie wyjaśni. Przez osie główne, czy masz na myśli wektory własne odpowiadające najwyższym m liczbie pojedynczej w ? Natknąłem się również: „W przypadku PCA nie musimy obliczać lewych wektorów pojedynczych”, ale nie możemy w pełni zrozumieć, dlaczego tak się dzieje.

A V = U D

$AV=UD$

A' U = V D'

$A ′ U=VD ′$

D

$D$

— Zhubarb

Twoje pytanie można poprawić, edytując je, aby poprawnie odzwierciedlało to, co stwierdza ten dokument. Na str. 22 definiuje jako zawierające pierwiastki kwadratowe z , „ograniczone” do największych. Dlatego nie są zaangażowane ani ani , ani nie mają interpretacji jako „macierze podobieństwa”. Odpowiednimi macierzami są zamiast tego i . Można ich użyć do odtworzenia przybliżenia

S

$S$

D

$D$

U D

$UD$

D V^{'}

$DV^\prime$

U S

$US$

S V^{'}

$SV^\prime$

A = U D V^{'} \approx U (S^{2}) V^{'} = (U S) (S V^{'}) .

$A=UDV^\prime\approx U(S^2)V^\prime=(US)(SV^\prime).$

— whuber

Zakładam, że D=svd(A)$dw R zwraca pierwiastki kwadratowe niezerowych wartości własnych, stąd użyłem . Nie mam problemu z aspektem zmniejszania wymiarów i rozumiem, że można opisać przybliżenie A rangi niższej rangi podczas ich opisu. Znalazłem odpowiedź na ten link częściowo odpowiada na moje pytanie.

U D

$UD$

— Zhubarb

Faktoryzacja macierzy za pomocą SVD rozkłada macierz wejściową na trzy części:

Lewe osobliwe wektory $U$ . Pierwsza kolumna tej macierzy określa, na której osi rzędy macierzy wejściowej najbardziej się różnią. W twoim przypadku pierwsza kolumna mówi, które słowa różnią się najbardziej razem.
Wartości szczególne $D$ . To są skalowania. Są względem siebie względne. Jeśli pierwsza wartość $D$ jest dwa razy większy niż drugi, co oznacza, że pierwszy wektor liczby pojedynczej (w $U$ i $V^T$ ) wyjaśniają dwa razy większą zmienność niż sekundowy wektor osobliwy.
Właściwe wektory pojedyncze $V^T$ . Pierwszy rząd tej macierzy określa, na której osi kolumny macierzy wejściowej najbardziej się różnią. W twoim przypadku pierwszy wiersz informuje, które dokumenty różnią się najbardziej razem.

Kiedy słowa lub dokumenty różnią się razem , oznacza to, że są one podobne. Na przykład, jeśli słowo „lekarz” występuje częściej w dokumencie, słowo „pielęgniarka i szpital” również występuje częściej. Jest to pokazane przez pierwszy skalowany lewy wektor osobliwy, pierwszą kolumnę $WordSim$ Można zweryfikować ten wynik, patrząc na dane wejściowe. Zwróć uwagę, że w przypadku wystąpienia pielęgniarki pojawia się również szpital, a gdy nie występuje, szpital również nie występuje.

— Pieter
źródło