Pytania otagowane jako text-mining

Odnosi się do podzbioru eksploracji danych związanych z wydobywaniem informacji z danych w postaci tekstu poprzez rozpoznawanie wzorców. Celem eksploracji tekstu jest często automatyczne zaklasyfikowanie danego dokumentu do jednej z wielu kategorii i dynamiczna poprawa tej wydajności, co czyni go przykładem uczenia maszynowego. Jednym z przykładów tego typu eksploracji tekstu są filtry spamu używane w wiadomościach e-mail.

2
Etyczne i ekonomiczne skalowanie skalowania danych
Niewiele rzeczy w życiu sprawia mi przyjemność, jak skrobanie uporządkowanych i nieustrukturyzowanych danych z Internetu i wykorzystywanie ich w moich modelach. Na przykład zestaw narzędzi Data Science Toolkit (lub RDSTKdla programistów R) pozwala mi wyciągać wiele dobrych danych opartych na lokalizacji za pomocą adresów IP lub adresów, a pakiet tm.webmining.pluginfor …

4
Alternatywy dla TF-IDF i podobieństwa kosinusowego podczas porównywania dokumentów o różnych formatach
Pracowałem nad małym, osobistym projektem, który wymaga umiejętności zawodowych użytkownika i sugeruje najbardziej idealną karierę dla nich w oparciu o te umiejętności. W tym celu korzystam z bazy ofert pracy. W tej chwili kod działa w następujący sposób: 1) Przetwarzaj tekst każdej oferty pracy, aby wyodrębnić umiejętności wymienione w tej …

3
Klasyfikacja tekstu nieustrukturyzowanego
Zamierzam sklasyfikować nieustrukturyzowane dokumenty tekstowe, a mianowicie strony internetowe o nieznanej strukturze. Liczba klas, do których klasyfikuję, jest ograniczona (w tym momencie uważam, że nie ma więcej niż trzy). Czy ktoś ma sugestie dotyczące tego, jak mogę zacząć? Czy możliwe jest podejście „worek słów”? Później mógłbym dodać kolejny etap klasyfikacji …

2
Algorytm dopasowywania preferencji
Pracuję nad tym projektem pobocznym, w którym muszę opracować rozwiązanie następującego problemu. Mam dwie grupy osób (klientów). Grupa Azamierza kupić, a grupa Bzamierza sprzedać określony produkt X. Produkt ma szereg atrybutów x_i, a moim celem jest ułatwienie transakcji Ai Bdopasowanie ich preferencji. Główną ideą jest wskazanie każdego członka Akorespondenta, w …



1
stosowanie word2vec na małych plikach tekstowych
Jestem zupełnie nowy w word2vec, więc proszę, zabierzcie to ze sobą. Mam zestaw plików tekstowych, z których każdy zawiera zestaw tweetów, między 1000 a 3000. Wybrałem wspólne słowo kluczowe („kw1”) i chcę znaleźć semantycznie odpowiednie terminy dla „kw1” za pomocą word2vec. Na przykład, jeśli słowem kluczowym jest „jabłko”, oczekiwałbym, że …

3
Jaka jest różnica między wektorem mieszającym a wektorem tfidf
Konwertuję korpus dokumentów tekstowych na wektory słów dla każdego dokumentu. Próbowałem tego za pomocą TfidfVectorizer i HashingVectorizer Rozumiem, że a HashingVectorizernie uwzględnia IDFwyników tak, jak TfidfVectorizerrobi. Powodem, dla którego wciąż pracuję nad HashingVectorizerjest elastyczność, jaką daje podczas pracy z ogromnymi zbiorami danych, jak wyjaśniono tutaj i tutaj . (Mój oryginalny …

4
Korzystanie z klastrowania w przetwarzaniu tekstu
Cześć, to moje pierwsze pytanie w stosie Data Science. Chcę stworzyć algorytm do klasyfikacji tekstu. Załóżmy, że mam duży zestaw tekstu i artykułów. Powiedzmy, że około 5000 zwykłych tekstów. Najpierw używam prostej funkcji do określenia częstotliwości wszystkich czterech i więcej słów znakowych. Następnie używam tego jako cechy każdej próbki treningowej. …

3
Uczenie się funkcji bez nadzoru dla NER
Wdrożyłem system NER z wykorzystaniem algorytmu CRF z moimi ręcznie wykonanymi funkcjami, które dawały całkiem dobre wyniki. Chodzi o to, że użyłem wielu różnych funkcji, w tym tagów POS i lematów. Teraz chcę zrobić ten sam NER dla innego języka. Problem polega na tym, że nie mogę używać tagów POS …

3
Najlepsze języki do obliczeń naukowych [zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Problem z klasyfikacją tekstu: czy Word2Vec / NN jest najlepszym podejściem?
Chcę zaprojektować system, który po akapicie tekstu będzie mógł go skategoryzować i zidentyfikować kontekst: Jest szkolony z akapitów tekstowych generowanych przez użytkowników (takich jak komentarze / pytania / odpowiedzi) Każdy element w zestawie treningowym zostanie oznaczony. Więc na przykład („kategoria 1”, „tekst akapit”) Będą setki kategorii Jakie byłoby najlepsze podejście …

3
Model przestrzeni wektorowej cosinus tf-idf do wyszukiwania podobnych dokumentów
Posiadaj korpus ponad miliona dokumentów Dla danego dokumentu chcesz znaleźć podobne dokumenty przy użyciu cosinus jak w modelu przestrzeni wektorowej d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Wszystkie tf zostały znormalizowane przy użyciu zwiększonej częstotliwości, aby zapobiec tendencyjności do dłuższych dokumentów, jak w tym tf-idf : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} …

1
Wiele etykiet w nadzorowanym algorytmie uczenia się
Mam korpus tekstu z odpowiednimi tematami. Na przykład "A rapper Tupac was shot in LA"i został oznaczony jako ["celebrity", "murder"]. Zasadniczo każdy wektor cech może mieć wiele etykiet (nie tyle samo. Pierwszy wektor cech może mieć 3 etykiety, drugi 1, trzeci 5). Gdybym miał tylko jedną etykietę odpowiadającą każdemu tekstowi, …

3
Analiza pliku dziennika: wyodrębnianie części informacyjnej z części wartościowej
Próbuję zbudować zestaw danych na kilku plikach dziennika jednego z naszych produktów. Różne pliki dziennika mają własny układ i własną zawartość; Z powodzeniem pogrupowałem je razem, pozostał tylko jeden krok ... Rzeczywiście, „wiadomości” dziennika są najlepszą informacją. Nie mam wyczerpującej listy wszystkich tych wiadomości, a kodowanie na podstawie tych kodów …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.