Pytania otagowane jako text-mining

Odnosi się do podzbioru eksploracji danych związanego z wydobywaniem informacji z danych w postaci tekstu poprzez rozpoznawanie wzorców. Celem eksploracji tekstu jest często automatyczne zaklasyfikowanie danego dokumentu do jednej z wielu kategorii oraz dynamiczne poprawienie tej wydajności, co czyni ją przykładem uczenia maszynowego. Jednym z przykładów tego typu eksploracji tekstu są filtry antyspamowe używane w wiadomościach e-mail.

2
Dlaczego n-gram jest używany do identyfikacji języka tekstowego zamiast słów?
W dwóch popularnych bibliotekach identyfikacji języka, Compact Language Detector 2 dla C ++ i wykrywaczu języka dla java, oba wykorzystały (oparte na znakach) n-gramach do wyodrębnienia funkcji tekstowych. Dlaczego nie używa się worka słów (pojedyncze słowo / słownik) i jakie są zalety i wady worka słów i n-gramów? Jakie są …



5
Dobre książki o eksploracji tekstu?
Cześć. Chciałem wiedzieć, czy są jakieś dobre książki na temat eksploracji tekstu i klasyfikacji z niektórymi studiami przypadków ?. Jeśli nie, wystarczyłyby niektóre dokumenty / czasopisma dostępne publicznie. Jeśli zilustrują swoje przykłady R jeszcze lepiej. Nie szukam instrukcji krok po kroku, ale czegoś, co ilustruje zalety i wady różnych podejść …

1
Przyrostowy IDF (odwrotna częstotliwość dokumentów)
W aplikacji do eksploracji tekstu jednym prostym podejściem jest użycie heurystyki do tworzenia wektorów jako zwartych rzadkich reprezentacji dokumentów. Jest to dobre w przypadku ustawień wsadowych, w których cały korpus jest znany z góry, ponieważ wymaga całego korpusui d ftf−idftf−idftf-idfidfidfidf idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} gdzie jest …

1
Zrozumienie zastosowania logarytmów w logarytmie TF-IDF
Czytałem: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób. Co robię Rozumiem: iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej. Z tej perspektywy iDF(S)=# of Documents# of Documents containing SiDF(S)=# …

3
Odnośnie użycia modelu Bigram (N-gram) do budowy wektora cech dla dokumentu tekstowego
Tradycyjne podejście do konstruowania obiektów do eksploracji tekstu jest oparte na zasadzie work-of-words i można je ulepszyć za pomocą tf-idf do konfigurowania wektora cech charakteryzującego dany dokument tekstowy. Obecnie próbuję użyć bi-gramowego modelu językowego lub (N-gram) do budowy wektora cech, ale nie bardzo wiesz, jak to zrobić? Czy możemy postępować …

1
Czy ta interpretacja rzadkości jest dokładna?
Zgodnie z dokumentacją removeSparseTermsfunkcji z tmpakietu, to jest to, co wiąże się z rzadkością: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with …

1
Po co dodawać odwrotną częstotliwość dokumentów?
Mój podręcznik podaje idf jako gdzielog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : liczba dokumentów ntntn_t : liczba dokumentów zawierających terminttt Wikipedia wymienia tę formułę jako wygładzoną wersję rzeczywistego . Rozumiem to: waha się od do co wydaje się intuicyjne. Ale przechodzi z do co wydaje się takie dziwne ... Wiem trochę o wygładzaniu z …


1
Korzystanie z narzędzi do eksploracji tekstu / przetwarzania języka naturalnego w ekonometrii
Nie jestem pewien, czy to pytanie jest w pełni odpowiednie tutaj, jeśli nie, proszę usunąć. Jestem studentką ekonomii. W przypadku projektu badającego problemy z zakresu ubezpieczeń społecznych mam dostęp do dużej liczby administracyjnych spraw (> 200 tys.), Które dotyczą oceny kwalifikowalności. Raporty te można ewentualnie powiązać z indywidualnymi informacjami administracyjnymi. …

1
Jak porównać obserwowane i oczekiwane zdarzenia?
Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Zrozumienie i zastosowanie analizy nastrojów
Właśnie przydzielono mi projekt przeprowadzania analizy sentymentu dla niektórych zbiorów dokumentów. Przez Googling pojawiło się wiele badań związanych z sentymentem. Moje pytania to: Jakie są główne metody / algorytmy analizy sentymentów w dziedzinie uczenia maszynowego i analizy statystycznej? Czy są jakieś ugruntowane wyniki? Czy istnieje jakieś oprogramowanie typu open source, …

4
Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?
Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.