Programowanie nltk

7

Co to jest „entropia i zdobywanie informacji”?

Czytam tę książkę ( NLTK ) i jest ona myląca. Entropia jest zdefiniowana jako : Entropia jest sumą prawdopodobieństwa każdej etykiety pomnożonej przez prawdopodobieństwo prawdopodobieństwa tej samej etykiety Jak mogę zastosować entropię i maksymalną entropię w zakresie eksploracji tekstu? Czy ktoś może dać mi prosty, prosty przykład (wizualny)?

338 math text computer-science nltk text-mining

15

Nie udało się załadować pliku english.pickle przy użyciu pliku nltk.data.load

Podczas próby załadowania punkttokenizera ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorzostał podniesiony: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' …

144 python jenkins nltk

15

n-gramów w Pythonie, cztery, pięć, sześć gramów?

Szukam sposobu na podzielenie tekstu na n-gramów. Normalnie zrobiłbym coś takiego: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Zdaję sobie sprawę, że nltk oferuje tylko bigramy i trygramy, ale czy istnieje sposób na podzielenie mojego tekstu na …

142 python string nltk n-gram

8

Jakie są wszystkie możliwe tagi POS NLTK?

Jak znaleźć listę wszystkich możliwych tagów pos używanych przez Natural Language Toolkit (nltk)?

141 python nltk

9

Jaka jest różnica między lematyzacją a wyprowadzaniem?

Kiedy używam każdego? Ponadto ... czy lematyzacja NLTK jest zależna od części mowy? Czy nie byłoby dokładniejsze, gdyby było?

137 python nlp nltk lemmatization

9

Jak sprawdzić, czy słowo jest słowem angielskim w Pythonie?

Chcę sprawdzić w programie w języku Python, czy słowo jest w słowniku języka angielskiego. Wydaje mi się, że najlepszym rozwiązaniem może być interfejs nltk wordnet, ale nie mam pojęcia, jak go używać do tak prostego zadania. def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) W przyszłości mógłbym chcieć …

134 python nltk wordnet

11

Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?

Dopiero zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używam nltk.word_tokenize(), otrzymuję listę słów i znaków interpunkcyjnych. Zamiast tego potrzebuję tylko słów. Jak pozbyć się interpunkcji? Również word_tokenizenie działa z wieloma zdaniami: punkty są dodawane do ostatniego słowa.

125 python nlp tokenize nltk

12

Jak usunąć słowa stop za pomocą nltk lub python

Mam więc zbiór danych, z którego chciałbym usunąć słowa pomijane stopwords.words('english') Walczę, jak użyć tego w moim kodzie, aby po prostu usunąć te słowa. Mam już listę słów z tego zbioru danych, część, z którą się zmagam, polega na porównaniu z tą listą i usuwaniu słów pomijanych. Każda pomoc jest …

110 python nltk stop-words

7

jak sprawdzić, która wersja nltk, scikit learn jest zainstalowana?

W skrypcie powłoki sprawdzam, czy te pakiety są zainstalowane, czy nie, jeśli nie są zainstalowane, instaluję je. Więc za pomocą skryptu powłoki: import nltk echo nltk.__version__ ale zatrzymuje skrypt powłoki na importlinii w terminalu linux próbował zobaczyć w ten sposób: which nltk co nic nie daje myśli, że jest zainstalowany. …

102 python linux shell scikit-learn nltk

26

problem z pip instalacją prawie każdej biblioteki

Mam problem z użyciem pip do zainstalowania prawie wszystkiego. Jestem nowy w kodowaniu, więc pomyślałem, że może to jest coś, co robię źle i zrezygnowałem z easy_install, aby uzyskać większość tego, co potrzebowałem, co ogólnie działa. Jednak teraz próbuję pobrać bibliotekę nltk i żadna z nich nie jest wykonywana. Próbowałem …

101 python pip nltk easy-install

17

Nie znaleziono zasobu u'tokenizers / punkt / english.pickle '

Mój kod: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') Komunikat o błędzie: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", …

96 python unix nltk

6

Python: tf-idf-cosine: aby znaleźć podobieństwo dokumentu

Śledziłem samouczek, który był dostępny w części 1 i części 2 . Niestety autor nie miał czasu na ostatnią sekcję, która polegała na wykorzystaniu podobieństwa cosinusowego, aby faktycznie znaleźć odległość między dwoma dokumentami. Podążałem za przykładami w artykule za pomocą poniższego linku ze stackoverflow , w zestawie jest kod wymieniony …

93 python machine-learning nltk information-retrieval tf-idf

18

Stanford Parser i NLTK

Czy można używać Stanford Parser w NLTK? (Nie mówię o Stanford POS.)

90 python parsing nlp nltk stanford-nlp

7

Jak skonfigurować katalog danych nltk z kodu?

85 python path directory nlp nltk

4

Tworzenie nowego korpusu za pomocą NLTK

Wydawało mi się, że często odpowiedzią na mój tytuł jest przeczytanie dokumentacji, ale przejrzałem książkę NLTK, ale ona nie daje odpowiedzi. Jestem trochę nowy w Pythonie. Mam kilka .txtplików i chcę móc korzystać z funkcji korpusu, które NLTK zapewnia dla korpusu nltk_data. Próbowałem, PlaintextCorpusReaderale nie mogłem posunąć się dalej niż: …

83 python nlp nltk corpus

Pytania otagowane jako nltk