Korzystanie z klastrowania w przetwarzaniu tekstu

11

Cześć, to moje pierwsze pytanie w stosie Data Science. Chcę stworzyć algorytm do klasyfikacji tekstu. Załóżmy, że mam duży zestaw tekstu i artykułów. Powiedzmy, że około 5000 zwykłych tekstów. Najpierw używam prostej funkcji do określenia częstotliwości wszystkich czterech i więcej słów znakowych. Następnie używam tego jako cechy każdej próbki treningowej. Teraz chcę, aby mój algorytm mógł grupować zestawy szkoleniowe zgodnie z ich funkcjami, czyli tutaj jest częstotliwość każdego słowa w artykule. (Należy zauważyć, że w tym przykładzie każdy artykuł miałby swoją unikalną cechę, ponieważ każdy artykuł ma inną cechę, na przykład artykuł ma 10 „wody i 23„ czystej ”, a inny ma 8„ polityki ”i 14„ dźwigni ”). Czy możesz zasugerować najlepszy możliwy algorytm grupowania dla tego przykładu?

text-mining clustering

— Rashid
źródło

5

Nie wiem, czy kiedykolwiek czytałeś SenseCluster Teda Pedersena: http://senseclusters.sourceforge.net/ . Bardzo dobry papier do grupowania zmysłów.

Ponadto, analizując słowa, pomyśl, że „komputer”, „komputery”, „komputeryzacja” ... reprezentują jedną koncepcję, a więc tylko jedną cechę. Bardzo ważne dla poprawnej analizy.

Mówiąc o algorytmie klastrowania, możesz użyć hierarchicznego klastrowania . Na każdym etapie algo łączysz 2 najbardziej podobne teksty zgodnie z ich cechami (na przykład za pomocą miary odmienności, na przykład odległości euklidesowej). Dzięki takiemu współczynnikowi podobieństwa możesz znaleźć najlepszą liczbę klastrów, a tym samym najlepszą klaster dla swoich tekstów i artykułów.

Powodzenia :)

— JC R.
źródło

6

Jeśli chcesz podążać swoją dotychczasową ścieżką, sugeruję znormalizowanie częstotliwości każdego terminu według jego popularności w całym korpusie, więc promowane są rzadkie, a zatem przewidujące słowa. Następnie użyj losowych rzutów, aby zmniejszyć wymiar tych bardzo długich wektorów do rozmiarów, aby algorytm grupowania działał lepiej (nie chcesz grupować w przestrzeniach o dużych wymiarach).

Istnieją jednak inne sposoby modelowania tematów. Przeczytaj ten samouczek, aby dowiedzieć się więcej.

— Emre
źródło

2

Nie można powiedzieć, że jest najlepsza, ale ukryta analiza semantyczna może być jedną z opcji. Zasadniczo opiera się na współwystępowaniu, musisz najpierw go zważyć.

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

Problem polega na tym, że LSA nie ma solidnego wsparcia statystycznego.

baw się dobrze

— Chen Guo
źródło

0

Jednym ze sposobów klasyfikacji tekstu jest obliczenie Częstotliwości Terminu i Odwrotnej Częstotliwości Dokumentu. Możesz odnieść się do tego dokumentu: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— Rajan Kumar Kharel
źródło