Nauka danych text-mining

5

Jakie są standardowe sposoby obliczania odległości między dokumentami?

Kiedy mówię „dokument”, mam na myśli strony internetowe, takie jak artykuły z Wikipedii i wiadomości. Wolę odpowiedzi podające albo waniliowe leksykalne wskaźniki odległości, albo najnowocześniejsze semantyczne mierniki odległości, z silniejszą preferencją dla tych ostatnich.

34 machine-learning data-mining nlp text-mining similarity

1

Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Jakich algorytmów należy użyć do przeprowadzenia klasyfikacji zadania na podstawie danych wznawiania?

Zauważ, że robię wszystko w R. Problem wygląda następująco: Zasadniczo mam listę CV (CV). Niektórzy kandydaci będą mieli wcześniej doświadczenie zawodowe, a niektórzy nie. Celem jest tutaj: na podstawie tekstu w życiorysach chcę podzielić je na różne sektory pracy. Zwłaszcza w tych przypadkach, w których kandydaci nie mają doświadczenia / …

28 machine-learning classification nlp text-mining

3

Ogólne podejście do wyodrębnienia tekstu kluczowego ze zdania (NLP)

Biorąc pod uwagę zdanie: Complimentary gym access for two for the length of stay ($12 value per person per day) Jakie ogólne podejście mogę zastosować, aby zidentyfikować słowo „gym” lub „gym access”?

27 machine-learning nlp text-mining data-cleaning

3

Wyodrębnianie słów kluczowych / fraz z tekstu przy użyciu bibliotek Deep Learning

Być może jest to zbyt ogólne, ale szukam referencji na temat korzystania z głębokiego uczenia się w zadaniu podsumowywania tekstu. Wdrożyłem już podsumowanie tekstu przy użyciu standardowych podejść do częstotliwości słów i rankingu zdań, ale chciałbym zbadać możliwość zastosowania technik głębokiego uczenia się do tego zadania. Przeszedłem również kilka implementacji …

20 neural-network text-mining deep-learning beginner tensorflow

3

jaka jest różnica między klasyfikacją tekstu a modelami tematycznymi?

Znam różnicę między klastrowaniem a klasyfikacją w uczeniu maszynowym, ale nie rozumiem różnicy między klasyfikacją tekstu a modelowaniem tematów dla dokumentów. Czy mogę używać modelowania tematów do dokumentów, aby zidentyfikować temat? Czy mogę używać metod klasyfikacji do klasyfikowania tekstu w tych dokumentach?

20 classification text-mining topic-model

1

Co to jest odległość Hellingera i kiedy z niej korzystać?

Chcę wiedzieć, co tak naprawdę dzieje się w Hellinger Distance (w prostych słowach). Co więcej, jestem również zainteresowany tym, jakie rodzaje problemów możemy wykorzystać Hellinger Distance? Jakie są zalety korzystania z Hellinger Distance?

19 machine-learning data-mining text-mining distance

3

Jak stworzyć listę powiązanych słów na podstawie początkowych słów kluczowych?

Niedawno widziałem fajną funkcję, która była kiedyś dostępna w Arkuszach Google: zaczynasz od napisania kilku powiązanych słów kluczowych w kolejnych komórkach, na przykład: „niebieski”, „zielony”, „żółty”, i automatycznie generuje podobne słowa kluczowe (w tym przypadku , inne kolory). Zobacz więcej przykładów w tym filmie na YouTube . Chciałbym to odtworzyć …

19 nlp text-mining freebase

4

Jak dodawać adnotacje do dokumentów tekstowych za pomocą metadanych?

Mając wiele dokumentów tekstowych (w języku naturalnym, nieuporządkowanym), jakie są możliwe sposoby przypisywania im niektórych semantycznych metadanych? Rozważmy na przykład krótki dokument: I saw the company's manager last day. Aby móc z niej wyodrębnić informacje, muszą być opatrzone adnotacjami dodatkowymi danymi, aby były mniej niejednoznaczne. Proces wyszukiwania takich metadanych nie …

18 nlp metadata data-cleaning text-mining

2

Doc2Vec - Jak oznaczyć akapity (gensim)

Zastanawiam się, jak oznaczyć (tagować) zdania / akapity / dokumenty za pomocą doc2vec w gensim - z praktycznego punktu widzenia. Czy musisz mieć każde zdanie / akapit / dokument z własną unikalną etykietą (np. „Wysłane_123”)? Wydaje się to przydatne, jeśli chcesz powiedzieć „jakie słowa lub zdania są najbardziej podobne do …

17 machine-learning text-mining word-embeddings word2vec

1

Algorytmy klastrowania tekstu

Mam problem z grupowaniem ogromnej liczby zdań w grupy według ich znaczenia. Jest to podobne do problemu, gdy masz wiele zdań i chcesz je pogrupować według ich znaczenia. Jakie algorytmy są zalecane? Nie wiem z góry liczby klastrów (a ponieważ nadchodzi więcej danych, klastry również mogą się zmieniać), jakie funkcje …

17 clustering text-mining algorithms scikit-learn

5

powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Wyodrębnij najbardziej pouczające części tekstu z dokumentów

Czy są jakieś artykuły lub dyskusje na temat wyodrębnienia części tekstu, która zawiera najwięcej informacji o bieżącym dokumencie. Na przykład mam duży zbiór dokumentów z tej samej domeny. Istnieją fragmenty tekstu zawierające kluczowe informacje, o których mówi pojedynczy dokument. Chcę wyodrębnić niektóre z tych części i wykorzystać je jako podsumowanie …

16 nlp text-mining

4

Jak wykonać dopasowanie rozmyte adresów pocztowych?

Chciałbym wiedzieć, jak dopasować adresy pocztowe, gdy ich format różni się lub gdy jeden z nich jest źle zapisany. Do tej pory znalazłem różne rozwiązania, ale myślę, że są one dość stare i niezbyt wydajne. Jestem pewien, że istnieją lepsze metody, więc jeśli masz dla mnie referencje, jestem pewien, że …

14 text-mining data-cleaning

1

Rozpoznawanie gramatyki w sekwencji rozmytych tokenów

Mam dokumenty tekstowe, które zawierają głównie listy pozycji. Każdy element jest grupą kilku tokenów z różnych typów: Imię, Nazwisko, Data urodzenia, Numer telefonu, Miasto, Zawód itp. Token to grupa słów. Przedmioty mogą leżeć w kilku liniach. Elementy z dokumentu mają mniej więcej tę samą składnię tokenów, ale niekoniecznie muszą być …

13 data-mining clustering text-mining time-series correlation

Pytania otagowane jako text-mining