Badam różne techniki stosowane w grupowaniu dokumentów i chciałbym wyjaśnić pewne wątpliwości dotyczące PCA (analiza głównego składnika) i LSA (utajona analiza semantyczna).
Po pierwsze - jakie są między nimi różnice? Wiem, że w PCA rozkład SVD jest stosowany do macierzy kowariancji terminów, podczas gdy w LSA jest to matryca termin-dokument. Czy jest coś jeszcze?
Po drugie - jaka jest ich rola w procedurze klastrowania dokumentów? Z tego, co przeczytałem do tej pory, wywnioskowałem, że ich celem jest redukcja wymiarów, redukcja szumów i włączenie relacji między terminami do przedstawienia. Po wykonaniu PCA lub LSA, tradycyjne algorytmy, takie jak k-średnie lub metody aglomeracyjne, są stosowane w przestrzeni o zmniejszonym czasie i stosowane są typowe miary podobieństwa, takie jak odległość cosinus. Proszę popraw mnie jeżeli się mylę.
Po trzecie - czy ma znaczenie, czy wektory termiczne TF / IDF są znormalizowane przed zastosowaniem PCA / LSA, czy nie? I czy po tym powinny być ponownie znormalizowane?
Po czwarte - powiedzmy, że wykonałem pewne grupowanie w obszarze przestrzeni zmniejszonej przez LSA / PCA. Jak teraz przypisać etykiety do klastrów wyników? Ponieważ wymiary nie odpowiadają rzeczywistym słowom, jest to raczej trudny problem. Jedyny pomysł, jaki przychodzi mi do głowy, to obliczanie centroidów dla każdego skupienia przy użyciu oryginalnych wektorów terminów i wybieranie terminów o najwyższej wadze, ale nie brzmi to zbyt wydajnie. Czy są jakieś konkretne rozwiązania tego problemu? Nic nie znalazłem.
Będę bardzo wdzięczny za wyjaśnienie tych kwestii.