Statystyki i duże zbiory danych text-mining

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Jak działa warstwa „Osadzanie” Keras?

Musisz zrozumieć działanie warstwy „Osadzanie” w bibliotece Keras. Wykonuję następujący kod w Pythonie import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) co daje następujący wynik input_array = [[4 1 3 …

69 text-mining word-embeddings keras

6

Jak quasi dopasować dwa wektory ciągów (w R)?

Nie jestem pewien, jak to nazwać, więc popraw mnie, jeśli znasz lepszy termin. Mam dwie listy. Jeden z 55 elementów (np .: wektor ciągów), drugi z 92. Nazwy elementów są podobne, ale nie identyczne. Życzę, aby znaleźć najlepszego kandydata s w liście do pozycji na liście 55 (będę wtedy przejść …

36 r text-mining

6

Klasyfikacja statystyczna tekstu

Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej zmiennej i rachunek wielu zmiennych całkiem dobrze, więc moja …

32 classification information-retrieval text-mining

4

Techniki uczenia maszynowego do analizowania ciągów?

Mam wiele ciągów adresów: 1600 Pennsylvania Ave, Washington, DC 20500 USA Chcę parsować je na ich komponenty: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ale oczywiście dane są brudne: pochodzą z wielu krajów w wielu językach, napisane na różne sposoby, zawierają błędy ortograficzne, brakuje fragmentów, …

30 machine-learning text-mining

3

Jak dobrze R skaluje się do zadań klasyfikacji tekstu? [Zamknięte]

Próbuję przyspieszyć z R. W końcu chcę używać bibliotek R do klasyfikacji tekstu. Zastanawiałem się tylko, jakie są ludzkie doświadczenia w odniesieniu do skalowalności języka R, jeśli chodzi o klasyfikację tekstu. Prawdopodobnie napotkam dane o dużych wymiarach (~ 300 tys. Wymiarów). Patrzę na wykorzystanie SVM i Random Forest w szczególności …

30 r machine-learning svm text-mining random-forest

2

Różnica między naiwnymi Bayesami a wielomianowymi naiwnymi Bayesami

Wcześniej miałem do czynienia z klasyfikatorem Naive Bayes . Czytałem ostatnio o Multinomial Naive Bayes . Również prawdopodobieństwo późniejsze = (wcześniejsze * prawdopodobieństwo) / (dowód) . Jedyną podstawową różnicą (podczas programowania tych klasyfikatorów), którą znalazłem między Naive Bayes i Multinomial Naive Bayes, jest to, że Wielomian Naive Bayes oblicza prawdopodobieństwo, …

29 bayesian classification text-mining naive-bayes

4

Pakiety R do wykonywania modelowania tematów / LDA: po prostu `topicmodels` i` lda` [zamknięte]

Wydaje mi się, że tylko dwa pakiety R są w stanie wykonać Latent Dirichlet Allocation : Jednym z nich jest ldaautor Jonathan Chang; drugim jest topicmodelsBettina Grün i Kurt Hornik. Jakie są różnice między tymi dwoma pakietami pod względem wydajności, szczegółów implementacji i możliwości rozszerzenia?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

1

Czy sprawdzanie poprawności jest właściwym zamiennikiem zestawu sprawdzania poprawności?

W klasyfikacji tekstowej mam zestaw szkoleniowy z około 800 próbkami i zestaw testowy z około 150 próbkami. Zestaw testowy nigdy nie był używany i czeka na użycie do końca. Używam całego zestawu 800 próbek treningowych, z 10-krotnym sprawdzaniem poprawności podczas strojenia i poprawiania klasyfikatorów i funkcji. Oznacza to, że nie …

27 machine-learning classification cross-validation text-mining

7

W Naive Bayes, po co zawracać sobie głowę wygładzaniem Laplace'a, gdy w zestawie testowym mamy nieznane słowa?

Czytałem dziś o klasyfikacji Naive Bayes. Przeczytałem pod nagłówkiem Szacowanie parametrów z dodaniem 1 wygładzania : Niech odnosi się do klasy (takiej jak Pozytywna lub Negatywna), a niech odnosi się do tokena lub słowa.cccwww Estymator największego prawdopodobieństwa dla wynosiP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

3

Modele tematyczne i metody współwystępowania słów

Popularne modele tematów, takie jak LDA, zwykle grupują słowa, które zwykle występują razem w tym samym temacie (klastrze). Jaka jest główna różnica między takimi modelami tematycznymi a innymi prostymi metodami grupowania opartymi na współwystępowaniu, takimi jak PMI? (PMI oznacza Pointwise Mutual Information i służy do identyfikacji słów współistniejących z danym …

26 machine-learning text-mining natural-language topic-models

2

Bag-of-Words do klasyfikacji tekstu: Dlaczego nie użyć częstotliwości słów zamiast TFIDF?

Powszechnym podejściem do klasyfikacji tekstu jest wyszkolenie klasyfikatora z „worka słów”. Użytkownik bierze tekst do sklasyfikowania i zlicza częstotliwości słów w każdym obiekcie, po czym następuje pewnego rodzaju przycinanie, aby zachować wynikową macierz o możliwym do zarządzania rozmiarze. Często widzę, jak użytkownicy konstruują wektor cech za pomocą TFIDF. Innymi słowy, …

24 machine-learning classification text-mining

1

Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?

Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki. …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

3

Częściowo nadzorowane uczenie się, aktywne uczenie się i głębokie uczenie się w celu klasyfikacji

Ostateczna edycja ze zaktualizowanymi wszystkimi zasobami: W przypadku projektu stosuję algorytmy uczenia maszynowego do klasyfikacji. Wyzwanie: Dość ograniczone dane oznaczone i znacznie więcej danych nieznakowanych. Cele: Zastosuj klasyfikację częściowo nadzorowaną Zastosuj w jakiś sposób częściowo nadzorowany proces etykietowania (znany jako aktywne uczenie się) Znalazłem wiele informacji z prac naukowych, takich …

19 machine-learning classification software svm text-mining

2

Dlaczego przetwarzanie języka naturalnego nie należy do dziedziny uczenia maszynowego? [Zamknięte]

W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą specjalistyczną, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …

18 machine-learning text-mining natural-language

Pytania otagowane jako text-mining