Jakie są różnice między utajoną analizą semantyczną (LSA), utajonym indeksowaniem semantycznym (LSI) i dekompozycją wartości osobliwych (SVD)?


15

Warunki te są często spotykane, ale chciałbym wiedzieć, jakie według ciebie są różnice, jeśli w ogóle.

Dzięki

Odpowiedzi:


12

LSA i LSI są najczęściej używane jako synonimy, a społeczność zajmująca się wyszukiwaniem informacji zwykle nazywa je LSI. LSA / LSI wykorzystuje SVD do dekompozycji macierzy A dokumentu-pojęcie do macierzy U pojęcia, macierzy S liczby pojedynczej i macierzy V dokumentu koncepcji w postaci: A = USV '. Strona wikipedia zawiera szczegółowy opis ukrytego indeksowania semantycznego .


8

W szczególności, podczas gdy LSA i LSI używają SVD do wykonywania swojej magii, istnieje obliczeniowa i koncepcyjnie prostsza metoda o nazwie HAL (Hyperspace Analogue to Language), która przesuwa się po tekście śledząc poprzednie i kolejne konteksty. Wektory są wydobywane z tych (często ważonych) macierzy współwystępowania, a określone słowa są wybierane do indeksowania przestrzeni semantycznej. Pod wieloma względami rozumiem, że działa tak samo dobrze, jak LSA, bez konieczności matematycznie / koncepcyjnie złożonego etapu SVD. Szczegóły patrz Lund i Burgess, 1996.


4
... podsumowując wcześniejsze prace Fincha i Chatera (1992, 1994), Schütze (1993) i innych. HAL, LSA i inne prace ze stanu techniki generują miarę podobieństwa słów, obliczając ich podobieństwo kontekstowe. (Jest to podobieństwo Shepharda do „drugiego rzędu”: podobieństwo „pierwszego rzędu” występuje, gdy słowo a występuje w pobliżu słowa b; podobieństwo „drugiego rzędu” polega na tym, że słowo a występuje w pobliżu tego samego rodzaju słów, co słowo b).
conjugateprior

3
Porównywanie i kontrastowanie: w przypadku LSA kontekstem jest kompletny dokument. Dla HAL i innych jest to okno tekstowe otaczające słowo docelowe. LSA mierzy odległość w liniowej podprzestrzeni wyodrębnionej za pomocą SVD / PCA, a druga zajmuje się odległościami w pierwotnej przestrzeni otaczających słów.
conjugateprior

6

NMF i SVD są algorytmami faktoryzacji macierzy. Wikipedia ma pewne istotne informacje na temat NMF .

AA=AA

Inni respondenci opisali LSI / LSA ...


powinna to być macierz kowariancji, prawda? nie macierz korelacji.
Rafael

Tak, chyba że najpierw wyśrodkujesz zmienne.
Emre

po normalizacji zmiennych staje się macierzą korelacji?
Rafael

Normalizacja koncentruje się na skalowaniu, więc jest inaczej.
Emre
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.