Analiza języka w celu znalezienia ważnych słów


9

Szukam informacji i teorii na temat podejścia do tematu leksykalnego.

Powiedzmy, że mam kolekcję ciągów, które mogą być tylko jednym zdaniem lub potencjalnie wieloma zdaniami. Chciałbym przeanalizować te ciągi znaków i wydrzeć najważniejsze słowa, być może z wynikiem, który wskazuje, jak prawdopodobne jest to słowo.

Spójrzmy na kilka przykładów tego, co mam na myśli.

Przykład 1:

„Naprawdę chcę Keuriga, ale nie stać mnie na to!”

To bardzo prosty przykład, tylko jedno zdanie. Jako człowiek z łatwością widzę, że „Keurig” jest tutaj najważniejszym słowem. Również „stać” jest względnie ważne, choć wyraźnie nie jest to główny punkt zdania. Słowo „ja” pojawia się dwa razy, ale w ogóle nie jest ważne, ponieważ tak naprawdę nie przekazuje nam żadnych informacji. Mogę się spodziewać, że zobaczę skrót słów / wyników podobny do tego:

"Keurig" => 0.9
"afford" => 0.4
"want"   => 0.2
"really" => 0.1
etc...

Przykład 2:

„Właśnie miałem jedną z najlepszych praktyk pływackich w moim życiu. Mam nadzieję, że uda mi się dotrzymać kroku konkurencji. Gdybym tylko pamiętał o zabraniu mojego nieprzemakalnego zegarka”.

Ten przykład ma wiele zdań, więc w tekście będą ważniejsze słowa. Nie powtarzając ćwiczenia punktowego z przykładu 1, prawdopodobnie spodziewałbym się, że z tego wynikną dwa lub trzy naprawdę ważne słowa: „pływanie” (lub „trening pływania”), „zawody” i „zegarek” (lub „wodoodporny” zegarek ”lub„ zegarek nieprzemakalny ”w zależności od tego, jak obsługiwany jest łącznik).

Biorąc pod uwagę kilka takich przykładów, jak byś zrobił coś podobnego? Czy istnieją jakieś biblioteki lub algorytmy (open source) w programowaniu, które już to robią?


To także mój pierwszy post na stronie programmers.stackexchange.com. Przepraszamy, jeśli jest to niewłaściwe miejsce i należy ono do StackOverflow lub innej strony SE. W razie potrzeby chętnie prześlę pytanie.
Matt Huggins,

Nie rozumiem z pytania, co próbujesz osiągnąć. W szczególności w pierwszym przykładzie słowa „Keurig” i „stać” można zidentyfikować za pomocą prostej kontroli statystycznej: wśród słów zdania te dwa słowa są mniej powszechne w języku angielskim niż inne. Więc jeśli masz bazę częstotliwości słów, możesz łatwo je zidentyfikować.
Qwertie,

Odpowiedzi:


5

Zdecydowanie ludzie myślą o opisanym przez ciebie problemie. Ranking João Ventura i Joaquima Ferreiry da Silvy oraz ekstrakcja odpowiednich pojedynczych słów w tekście (pdf) to miłe wprowadzenie do istniejących technik rankingowych, a także sugestie dotyczące ulepszeń. Wszystkie techniki, które opisują, opierają się na korpusie (dużo tekstu) w porównaniu do jednego lub dwóch wierszy tekstu. Twój korpus musiałby być zbiorem wszystkich próbek lub ewentualnie wielu ciał pobranych próbek z określonych źródeł. Należy pamiętać, że trafność pojedynczego słowa (unigram) jest bardzo nierozwiązanym problemem. Jak opisano w artykule:

„... przy użyciu metod czysto statystycznych, ten rodzaj klasyfikacji nie zawsze jest prosty, a nawet dokładny, ponieważ chociaż pojęcie istotności jest pojęciem łatwym do zrozumienia, zwykle nie ma zgody co do granicy oddzielającej istotność od nieistotności. Na przykład słowa takie jak „Republika” lub „Londyn” mają znaczenie znaczące, a słowa takie jak „lub” i „ponieważ” nie mają żadnego znaczenia, ale co ze słowami takimi jak „przeczytaj”, „zakończ” i „następny”? słów są problematyczne, ponieważ zwykle nie ma zgody co do ich wartości semantycznej ”.

Istnieje wiele zestawów narzędzi do przetwarzania języka naturalnego typu open source . (Ostrożnie. Niektóre narzędzia są bezpłatne do badań, ale wymagają komercyjnej licencji do użytku komercyjnego.) Ułatwiają Ci życie bez względu na wybrane podejście.

Najbardziej znam zestaw narzędzi Natural Language Toolkit (NLTK) . Jest łatwy w użyciu, dobrze udokumentowany i został opisany w książce Natural Language Processing with Python (bezpłatnie dostępny online). Jako prosty przykład tego, co NLTK może dla Ciebie zrobić, wyobraź sobie, że używasz tagera części mowy . Po zidentyfikowaniu części mowy każdego słowa możesz uznać, że rzeczowniki są bardzo ważne, a przymiotniki mniej ważne. Czasowniki mogą być ważne, a przysłówki mniej. To wcale nie jest najnowocześniejszy ranking, ale uzyskujesz przydatne informacje przy niewielkim wysiłku. Gdy będziesz gotowy przejść do bardziej wyrafinowanej analizy, wbudowana zdolność NLTK do tokenizacji, oznaczania, dzielenia i klasyfikowania pozwoli Ci skupić się na innych szczegółach rozwiązania.


1

Przetwarzanie języka naturalnego jest własną dyscypliną, w której przeprowadzono sporo formalnych badań. Zacznę od szukania tam.

Chciałbym również ponownie rozważyć moje potrzeby. Nawet po ponad 50 latach badań najlepszymi informatykami, którzy potrafili wymyślić, jest Siri. Nie spodziewałbym się, że komputer z powodzeniem wykona to, o czym mówisz z regularnością.

Jeśli istnieją pewne ograniczenia w mowie (jak Siri zakładając, że masz proste polecenie lub pytanie), może być lepiej. Ponowne rozpatrzenie moich potrzeb (przy założeniu, że potrzebuję NLP) obejmowałoby zdefiniowanie moich ograniczeń. Potem prawdopodobnie polowałbym na mnóstwo przykładów. Częściowo w celu przetestowania wszystkiego, co wymyślę, ale wiele nowoczesnych rozwiązań wymaga uczenia maszynowego. Potrzebuję tych przykładów jako danych wejściowych do krzywej uczenia się.

Podsumowując, poważnie wątpię, aby cokolwiek mogło dać dobre wyniki w tego rodzaju scenariuszu bez kontekstu.


+1 za wykopanie Siri ... lub promocję ...
Aaron McIver,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.