Próbuję przeprowadzić klastrowanie na poziomie dokumentu. Skonstruowałem macierz częstotliwości termin-dokument i próbuję zgrupować te wektory o dużych wymiarach za pomocą k-średnich. Zamiast bezpośredniego grupowania, najpierw zastosowałem dekompozycję wektora osobliwego LSA (Latent Semantic Analysis) w celu uzyskania macierzy U, S, Vt, wybrałem odpowiedni próg za pomocą wykresu piargowego i zastosowałem grupowanie na zredukowanych macierzach (szczególnie Vt, ponieważ daje mi informacje o dokumencie koncepcyjnym), które wydawały się dawać dobre wyniki.
Słyszałem, jak niektórzy mówili, że SVD (rozkład pojedynczego wektora) jest grupowaniem (za pomocą miary podobieństwa cosinusowego itp.) I nie byłem pewien, czy mogę zastosować k-średnie na wyjściu SVD. Myślałem, że to logicznie poprawne, ponieważ SVD jest techniką redukcji wymiarów, daje mi mnóstwo nowych wektorów. Z drugiej strony, k-średnie weźmie liczbę klastrów jako dane wejściowe i podzieli te wektory na określoną liczbę klastrów. Czy ta procedura jest wadliwa lub czy istnieją sposoby jej poprawy? Jakieś sugestie?