Pytania otagowane jako text-mining

Odnosi się do podzbioru eksploracji danych związanego z wydobywaniem informacji z danych w postaci tekstu poprzez rozpoznawanie wzorców. Celem eksploracji tekstu jest często automatyczne zaklasyfikowanie danego dokumentu do jednej z wielu kategorii oraz dynamiczne poprawienie tej wydajności, co czyni ją przykładem uczenia maszynowego. Jednym z przykładów tego typu eksploracji tekstu są filtry antyspamowe używane w wiadomościach e-mail.

3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Jak działa warstwa „Osadzanie” Keras?
Musisz zrozumieć działanie warstwy „Osadzanie” w bibliotece Keras. Wykonuję następujący kod w Pythonie import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) co daje następujący wynik input_array = [[4 1 3 …

6
Jak quasi dopasować dwa wektory ciągów (w R)?
Nie jestem pewien, jak to nazwać, więc popraw mnie, jeśli znasz lepszy termin. Mam dwie listy. Jeden z 55 elementów (np .: wektor ciągów), drugi z 92. Nazwy elementów są podobne, ale nie identyczne. Życzę, aby znaleźć najlepszego kandydata s w liście do pozycji na liście 55 (będę wtedy przejść …
36 r  text-mining 

6
Klasyfikacja statystyczna tekstu
Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej zmiennej i rachunek wielu zmiennych całkiem dobrze, więc moja …

4
Techniki uczenia maszynowego do analizowania ciągów?
Mam wiele ciągów adresów: 1600 Pennsylvania Ave, Washington, DC 20500 USA Chcę parsować je na ich komponenty: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ale oczywiście dane są brudne: pochodzą z wielu krajów w wielu językach, napisane na różne sposoby, zawierają błędy ortograficzne, brakuje fragmentów, …

3
Jak dobrze R skaluje się do zadań klasyfikacji tekstu? [Zamknięte]
Próbuję przyspieszyć z R. W końcu chcę używać bibliotek R do klasyfikacji tekstu. Zastanawiałem się tylko, jakie są ludzkie doświadczenia w odniesieniu do skalowalności języka R, jeśli chodzi o klasyfikację tekstu. Prawdopodobnie napotkam dane o dużych wymiarach (~ 300 tys. Wymiarów). Patrzę na wykorzystanie SVM i Random Forest w szczególności …

2
Różnica między naiwnymi Bayesami a wielomianowymi naiwnymi Bayesami
Wcześniej miałem do czynienia z klasyfikatorem Naive Bayes . Czytałem ostatnio o Multinomial Naive Bayes . Również prawdopodobieństwo późniejsze = (wcześniejsze * prawdopodobieństwo) / (dowód) . Jedyną podstawową różnicą (podczas programowania tych klasyfikatorów), którą znalazłem między Naive Bayes i Multinomial Naive Bayes, jest to, że Wielomian Naive Bayes oblicza prawdopodobieństwo, …


1
Czy sprawdzanie poprawności jest właściwym zamiennikiem zestawu sprawdzania poprawności?
W klasyfikacji tekstowej mam zestaw szkoleniowy z około 800 próbkami i zestaw testowy z około 150 próbkami. Zestaw testowy nigdy nie był używany i czeka na użycie do końca. Używam całego zestawu 800 próbek treningowych, z 10-krotnym sprawdzaniem poprawności podczas strojenia i poprawiania klasyfikatorów i funkcji. Oznacza to, że nie …

7
W Naive Bayes, po co zawracać sobie głowę wygładzaniem Laplace'a, gdy w zestawie testowym mamy nieznane słowa?
Czytałem dziś o klasyfikacji Naive Bayes. Przeczytałem pod nagłówkiem Szacowanie parametrów z dodaniem 1 wygładzania : Niech odnosi się do klasy (takiej jak Pozytywna lub Negatywna), a niech odnosi się do tokena lub słowa.cccwww Estymator największego prawdopodobieństwa dla wynosiP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …

3
Modele tematyczne i metody współwystępowania słów
Popularne modele tematów, takie jak LDA, zwykle grupują słowa, które zwykle występują razem w tym samym temacie (klastrze). Jaka jest główna różnica między takimi modelami tematycznymi a innymi prostymi metodami grupowania opartymi na współwystępowaniu, takimi jak PMI? (PMI oznacza Pointwise Mutual Information i służy do identyfikacji słów współistniejących z danym …

2
Bag-of-Words do klasyfikacji tekstu: Dlaczego nie użyć częstotliwości słów zamiast TFIDF?
Powszechnym podejściem do klasyfikacji tekstu jest wyszkolenie klasyfikatora z „worka słów”. Użytkownik bierze tekst do sklasyfikowania i zlicza częstotliwości słów w każdym obiekcie, po czym następuje pewnego rodzaju przycinanie, aby zachować wynikową macierz o możliwym do zarządzania rozmiarze. Często widzę, jak użytkownicy konstruują wektor cech za pomocą TFIDF. Innymi słowy, …

1
Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?
Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki. …

3
Częściowo nadzorowane uczenie się, aktywne uczenie się i głębokie uczenie się w celu klasyfikacji
Ostateczna edycja ze zaktualizowanymi wszystkimi zasobami: W przypadku projektu stosuję algorytmy uczenia maszynowego do klasyfikacji. Wyzwanie: Dość ograniczone dane oznaczone i znacznie więcej danych nieznakowanych. Cele: Zastosuj klasyfikację częściowo nadzorowaną Zastosuj w jakiś sposób częściowo nadzorowany proces etykietowania (znany jako aktywne uczenie się) Znalazłem wiele informacji z prac naukowych, takich …

2
Dlaczego przetwarzanie języka naturalnego nie należy do dziedziny uczenia maszynowego? [Zamknięte]
W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą specjalistyczną, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.