Korzystam z ukrytego indeksowania semantycznego, aby znaleźć podobieństwa między dokumentami ( dzięki, JMS! )
Po zmniejszeniu wymiaru próbowałem k-średnich grupowania dokumentów w klastry, co działa bardzo dobrze. Chciałbym jednak pójść nieco dalej i wizualizować dokumenty jako zestaw węzłów, w których odległość między dowolnymi dwoma węzłami jest odwrotnie proporcjonalna do ich podobieństwa (bardzo podobne węzły są blisko siebie).
Uderza mnie, że nie mogę dokładnie zredukować macierzy podobieństwa do dwuwymiarowego wykresu, ponieważ moje dane mają> 2 wymiary. Więc moje pierwsze pytanie: czy istnieje standardowy sposób, aby to zrobić?
Czy mogę po prostu zmniejszyć moje dane do dwóch wymiarów, a następnie wykreślić je jako oś X i Y, i czy wystarczyłoby to dla grupy ~ 100-200 dokumentów? Jeśli to jest rozwiązanie, czy lepiej jest zmniejszyć moje dane do 2 wymiarów od samego początku, czy też jest jakiś sposób, aby wybrać dwa „najlepsze” wymiary z moich danych wielowymiarowych?
Używam Pythona i biblioteki gensim, jeśli to robi różnicę.