Pytania otagowane jako nlp

Przetwarzanie języka naturalnego (NLP) to dziedzina informatyki, sztucznej inteligencji i językoznawstwa związana z interakcjami między komputerem a ludzkim (naturalnym) językiem. W związku z tym NLP jest związany z obszarem interakcji człowiek-komputer. Wiele wyzwań związanych z NLP wiąże się ze zrozumieniem języka naturalnego, tzn. Umożliwieniem komputerom czerpania znaczenia z wkładu ludzkiego lub języka naturalnego, a inne wymagają generowania języka naturalnego.

4
Alternatywy dla TF-IDF i podobieństwa kosinusowego podczas porównywania dokumentów o różnych formatach
Pracowałem nad małym, osobistym projektem, który wymaga umiejętności zawodowych użytkownika i sugeruje najbardziej idealną karierę dla nich w oparciu o te umiejętności. W tym celu korzystam z bazy ofert pracy. W tej chwili kod działa w następujący sposób: 1) Przetwarzaj tekst każdej oferty pracy, aby wyodrębnić umiejętności wymienione w tej …

3
Wydajny model bazy danych do przechowywania danych indeksowanych według n-gramów
Pracuję nad aplikacją, która wymaga utworzenia bardzo dużej bazy danych n-gramów, która istnieje w dużym korpusie tekstowym. Potrzebuję trzech wydajnych typów operacji: wyszukiwanie i wstawianie indeksowane przez sam n-gram oraz sprawdzanie wszystkich n-gramów zawierających sub-n-gram. Wydaje mi się, że baza danych powinna być gigantycznym drzewem dokumentów, a bazy danych dokumentów, …
12 nlp  databases 

3
Pomoc dotycząca NER w NLTK
Od jakiegoś czasu pracuję w NLTK, używając Pythona. Problem, z którym się zmagam, polega na tym, że nie ma pomocy w szkoleniu NER w NLTK z moimi niestandardowymi danymi. Wykorzystali MaxEnt i wyszkolili go na korpusie ACE. Dużo szukałem w Internecie, ale nie mogłem znaleźć sposobu, który mógłby posłużyć do …

1
Ile komórek LSTM powinienem użyć?
Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Czy są jakieś dobre gotowe modele językowe dla Pythona?
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
Wyodrębnij informacje ze zdania
Tworzę prosty chatbot. Chcę uzyskać informacje z odpowiedzi użytkownika. Przykładowy scenariusz: Bot : Hi, what is your name? User: My name is Edwin. Chciałbym wydobyć imię Edwin ze zdania. Użytkownik może jednak reagować na różne sposoby, np User: Edwin is my name. User: I am Edwin. User: Edwin. Próbuję polegać …
11 python  nlp 

2
Jak działają „osoby świadomego rozpoznania”?
Alexa z Amazon , Nuance's Mix i Wit.ai z Facebooka używają podobnego systemu, aby określić, jak przekonwertować polecenie tekstowe na zamiar - tzn. Coś, co zrozumie komputer. Nie jestem pewien, jak brzmi „oficjalna” nazwa, ale nazywam to „celowym uznaniem”. Zasadniczo sposób na przejście z „proszę ustawić moje światła na 50% …


1
stosowanie word2vec na małych plikach tekstowych
Jestem zupełnie nowy w word2vec, więc proszę, zabierzcie to ze sobą. Mam zestaw plików tekstowych, z których każdy zawiera zestaw tweetów, między 1000 a 3000. Wybrałem wspólne słowo kluczowe („kw1”) i chcę znaleźć semantycznie odpowiednie terminy dla „kw1” za pomocą word2vec. Na przykład, jeśli słowem kluczowym jest „jabłko”, oczekiwałbym, że …

4
W jaki sposób word2vec może być wykorzystywany do identyfikacji niewidocznych słów i powiązania ich z już wyszkolonymi danymi
Pracowałem nad modelem gensim word2vec i uznałem go za naprawdę interesujący. Interesuje mnie odkrycie, jak nieznane / niewidoczne słowo po sprawdzeniu z modelem będzie w stanie uzyskać podobne terminy z wyuczonego modelu. czy to możliwe? Czy Word2vec można do tego dostosować? Lub korpus szkoleniowy musi zawierać wszystkie słowa, których chcę …

3
Jaka jest różnica między wektorem mieszającym a wektorem tfidf
Konwertuję korpus dokumentów tekstowych na wektory słów dla każdego dokumentu. Próbowałem tego za pomocą TfidfVectorizer i HashingVectorizer Rozumiem, że a HashingVectorizernie uwzględnia IDFwyników tak, jak TfidfVectorizerrobi. Powodem, dla którego wciąż pracuję nad HashingVectorizerjest elastyczność, jaką daje podczas pracy z ogromnymi zbiorami danych, jak wyjaśniono tutaj i tutaj . (Mój oryginalny …

3
Uczenie się funkcji bez nadzoru dla NER
Wdrożyłem system NER z wykorzystaniem algorytmu CRF z moimi ręcznie wykonanymi funkcjami, które dawały całkiem dobre wyniki. Chodzi o to, że użyłem wielu różnych funkcji, w tym tagów POS i lematów. Teraz chcę zrobić ten sam NER dla innego języka. Problem polega na tym, że nie mogę używać tagów POS …

3
Jak przetwarzać zapytania w języku naturalnym?
Jestem ciekawy zapytań w języku naturalnym. Stanford ma coś, co wygląda na silny zestaw oprogramowania do przetwarzania języka naturalnego . Widziałem także bibliotekę Apache OpenNLP i architekturę ogólną dla inżynierii tekstu . Istnieje ogromna liczba zastosowań przetwarzania języka naturalnego, co sprawia, że ​​dokumentacja tych projektów jest trudna do szybkiego przyswojenia. …
11 nlp 

3
Najlepsze języki do obliczeń naukowych [zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Czy Word2Vec i Doc2Vec są reprezentacją dystrybucyjną, czy reprezentacją rozproszoną?
Czytałem, że reprezentacja dystrybucyjna opiera się na hipotezie dystrybucyjnej, że słowa występujące w podobnym kontekście mają zwykle podobne znaczenie. Word2Vec i Doc2Vec są modelowane zgodnie z tą hipotezą. Ale w oryginalnym artykule nawet one są zatytułowane jako Distributed representation of words and phrasesi Distributed representation of sentences and documents. Tak …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.