Mam problem z grupowaniem ogromnej liczby zdań w grupy według ich znaczenia. Jest to podobne do problemu, gdy masz wiele zdań i chcesz je pogrupować według ich znaczenia.
Jakie algorytmy są zalecane? Nie wiem z góry liczby klastrów (a ponieważ nadchodzi więcej danych, klastry również mogą się zmieniać), jakie funkcje są zwykle używane do przedstawienia każdego zdania?
Próbuję teraz najprostszych funkcji z samą listą słów i odległością między zdaniami zdefiniowanymi jako:
(A i B są odpowiednimi zestawami słów w zdaniach A i B)
Czy to w ogóle ma sens?
Próbuję zastosować algorytm Mean-Shift z biblioteki scikit do tej odległości, ponieważ nie wymaga to wcześniej liczby klastrów.
Jeśli ktoś doradzi lepsze metody / podejścia do problemu - będzie to bardzo doceniane, ponieważ wciąż jestem nowy w tym temacie.