Pytania otagowane jako nltk

Natural Language Toolkit to biblioteka Pythona do lingwistyki komputerowej.

7
Co to jest „entropia i zdobywanie informacji”?
Czytam tę książkę ( NLTK ) i jest ona myląca. Entropia jest zdefiniowana jako : Entropia jest sumą prawdopodobieństwa każdej etykiety pomnożonej przez prawdopodobieństwo prawdopodobieństwa tej samej etykiety Jak mogę zastosować entropię i maksymalną entropię w zakresie eksploracji tekstu? Czy ktoś może dać mi prosty, prosty przykład (wizualny)?

15
Nie udało się załadować pliku english.pickle przy użyciu pliku nltk.data.load
Podczas próby załadowania punkttokenizera ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorzostał podniesiony: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' …
144 python  jenkins  nltk 

15
n-gramów w Pythonie, cztery, pięć, sześć gramów?
Szukam sposobu na podzielenie tekstu na n-gramów. Normalnie zrobiłbym coś takiego: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Zdaję sobie sprawę, że nltk oferuje tylko bigramy i trygramy, ale czy istnieje sposób na podzielenie mojego tekstu na …
142 python  string  nltk  n-gram 



9
Jak sprawdzić, czy słowo jest słowem angielskim w Pythonie?
Chcę sprawdzić w programie w języku Python, czy słowo jest w słowniku języka angielskiego. Wydaje mi się, że najlepszym rozwiązaniem może być interfejs nltk wordnet, ale nie mam pojęcia, jak go używać do tak prostego zadania. def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) W przyszłości mógłbym chcieć …
134 python  nltk  wordnet 

11
Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?
Dopiero zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używam nltk.word_tokenize(), otrzymuję listę słów i znaków interpunkcyjnych. Zamiast tego potrzebuję tylko słów. Jak pozbyć się interpunkcji? Również word_tokenizenie działa z wieloma zdaniami: punkty są dodawane do ostatniego słowa.
125 python  nlp  tokenize  nltk 

12
Jak usunąć słowa stop za pomocą nltk lub python
Mam więc zbiór danych, z którego chciałbym usunąć słowa pomijane stopwords.words('english') Walczę, jak użyć tego w moim kodzie, aby po prostu usunąć te słowa. Mam już listę słów z tego zbioru danych, część, z którą się zmagam, polega na porównaniu z tą listą i usuwaniu słów pomijanych. Każda pomoc jest …
110 python  nltk  stop-words 


26
problem z pip instalacją prawie każdej biblioteki
Mam problem z użyciem pip do zainstalowania prawie wszystkiego. Jestem nowy w kodowaniu, więc pomyślałem, że może to jest coś, co robię źle i zrezygnowałem z easy_install, aby uzyskać większość tego, co potrzebowałem, co ogólnie działa. Jednak teraz próbuję pobrać bibliotekę nltk i żadna z nich nie jest wykonywana. Próbowałem …
101 python  pip  nltk  easy-install 

17
Nie znaleziono zasobu u'tokenizers / punkt / english.pickle '
Mój kod: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') Komunikat o błędzie: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", …
96 python  unix  nltk 

6
Python: tf-idf-cosine: aby znaleźć podobieństwo dokumentu
Śledziłem samouczek, który był dostępny w części 1 i części 2 . Niestety autor nie miał czasu na ostatnią sekcję, która polegała na wykorzystaniu podobieństwa cosinusowego, aby faktycznie znaleźć odległość między dwoma dokumentami. Podążałem za przykładami w artykule za pomocą poniższego linku ze stackoverflow , w zestawie jest kod wymieniony …



4
Tworzenie nowego korpusu za pomocą NLTK
Wydawało mi się, że często odpowiedzią na mój tytuł jest przeczytanie dokumentacji, ale przejrzałem książkę NLTK, ale ona nie daje odpowiedzi. Jestem trochę nowy w Pythonie. Mam kilka .txtplików i chcę móc korzystać z funkcji korpusu, które NLTK zapewnia dla korpusu nltk_data. Próbowałem, PlaintextCorpusReaderale nie mogłem posunąć się dalej niż: …
83 python  nlp  nltk  corpus 
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.