Szukam wskazówek, jak stworzyć listę haseł. Czy ktoś wie / czy ktoś może zalecić dobrą metodę wyodrębnienia list słów-słów z samego zbioru danych w celu wstępnego przetwarzania i filtrowania?
Dane:
ogromna ilość tekstu ludzkiego o zmiennej długości (wyszukiwarki i całe zdania (do 200 znaków)) przez kilka lat. Tekst zawiera dużo spamu (np. Dane wejściowe z botów, pojedyncze słowa, głupie wyszukiwania, wyszukiwania produktów ...) i tylko kilka% z nich wydaje się przydatne. Uświadomiłem sobie, że czasami (bardzo rzadko) ludzie przeszukują moją stronę, zadając naprawdę fajne pytania. Te pytania są tak fajne, że uważam, że warto przyjrzeć się im głębiej, aby zobaczyć, jak ludzie szukają w czasie i jakie tematy zainteresowali się moją witryną.
Mój problem:
jest to, że naprawdę walczę z przetwarzaniem wstępnym (tj. usuwam spam). Próbowałem już trochę listy słów kluczowych z Internetu (NLTK itp.), Ale tak naprawdę nie zaspokajają moich potrzeb dotyczących tego zestawu danych.
Dziękujemy za pomysły i dyskusje!
stop words
. Stop-wrods znajduje się lista najczęstszych słów w jakimś języku, na przykład I
, the
, a
i tak dalej. Po prostu usuniesz te słowa z tekstu, zanim zaczniesz trenować algorytm, który próbuje zidentyfikować, który tekst jest spamem, czy nie. Nie pomógł ci ustalić, który tekst jest spamem, czy nie, może poprawić algorytm uczenia się.