Pytania otagowane jako text-mining

Odnosi się do podzbioru eksploracji danych związanego z wydobywaniem informacji z danych w postaci tekstu poprzez rozpoznawanie wzorców. Celem eksploracji tekstu jest często automatyczne zaklasyfikowanie danego dokumentu do jednej z wielu kategorii oraz dynamiczne poprawienie tej wydajności, co czyni ją przykładem uczenia maszynowego. Jednym z przykładów tego typu eksploracji tekstu są filtry antyspamowe używane w wiadomościach e-mail.

2
Jak obliczyć zakłopotanie utrudnienia za pomocą Latent Dirichlet Allocation?
Jestem zdezorientowany, jak obliczyć zakłopotanie próby wstrzymania podczas wykonywania Latent Dirichlet Allocation (LDA). Dokumenty na ten temat wrócą nad tym, co sprawia, że ​​myślę, że brakuje mi czegoś oczywistego ... Zakłopotanie jest postrzegane jako dobra miara wydajności dla LDA. Chodzi o to, że trzymasz próbkę wstrzymania, trenujesz LDA na pozostałych …

5
Klasyfikacja tekstu na dużą skalę
Chcę dokonać klasyfikacji na podstawie moich danych tekstowych. Mam 300 classes200 dokumentów szkoleniowych na klasę (więc 60000 documents in total), co może skutkować bardzo wysokimi wymiarami danych (być może szukamy ponad 1 milion wymiarów ). Chciałbym wykonać następujące kroki w przygotowaniu (aby dać ci wyobrażenie o moich wymaganiach): Konwertowanie każdego …

2
Dlaczego klasyfikator regresji grzbietu działa całkiem dobrze w przypadku klasyfikacji tekstu?
Podczas eksperymentu dotyczącego klasyfikacji tekstu znalazłem klasyfikator grzbietowy generujący wyniki, które stale przewyższają testy wśród tych klasyfikatorów, które są częściej wymieniane i stosowane do zadań eksploracji tekstu, takich jak SVM, NB, kNN itp. Chociaż nie opracowałem na temat optymalizacji każdego klasyfikatora w tym konkretnym zadaniu klasyfikacji tekstu, z wyjątkiem kilku …

1
Chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej oparty na wiadomościach
Mam ten poboczny projekt, w którym indeksuję lokalne serwisy informacyjne w moim kraju i chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej. Omówiłem już część projektu dotyczącą wyszukiwania informacji. Mój plan to zrobić: Ekstrakcja tematu bez nadzoru. Wykrywanie bliskich duplikatów. Nadzorowana klasyfikacja i poziom incydentów (przestępczość / polityka - wysoka …

1
Parametry wejściowe do użycia ukrytego przydziału Dirichleta
Podczas korzystania z modelowania tematów (Latent Dirichlet Allocation) liczba tematów jest parametrem wejściowym, który użytkownik musi określić. Wydaje mi się, że powinniśmy również dostarczyć zbiór kandydujących zestawów tematów, z którymi proces Dirichleta musi próbkować? Czy moje rozumowanie jest prawidłowe? W praktyce, jak skonfigurować tego rodzaju zestaw tematów kandydujących?

1
Prognozowanie tematu przy użyciu ukrytego przydziału Dirichleta
Użyłem LDA do zbioru dokumentów i znalazłem kilka tematów. Wynikiem mojego kodu są dwie macierze zawierające prawdopodobieństwa; jedno prawdopodobieństwo doc-temat i drugie prawdopodobieństwo słowo-temat. Ale tak naprawdę nie wiem, jak wykorzystać te wyniki do przewidzenia tematu nowego dokumentu. Korzystam z próbkowania Gibbs. Czy ktoś wie jak? dzięki

2
Kiedy łączymy redukcję wymiarowości z klastrowaniem?
Próbuję przeprowadzić klastrowanie na poziomie dokumentu. Skonstruowałem macierz częstotliwości termin-dokument i próbuję zgrupować te wektory o dużych wymiarach za pomocą k-średnich. Zamiast bezpośredniego grupowania, najpierw zastosowałem dekompozycję wektora osobliwego LSA (Latent Semantic Analysis) w celu uzyskania macierzy U, S, Vt, wybrałem odpowiedni próg za pomocą wykresu piargowego i zastosowałem grupowanie …


4
Text Mining: jak grupować teksty (np. Artykuły prasowe) za pomocą sztucznej inteligencji?
Zbudowałem kilka sieci neuronowych (MLP (w pełni połączony), Elman (cykliczny)) do różnych zadań, takich jak gra w Pong, klasyfikowanie odręcznych cyfr i tym podobne ... Dodatkowo próbowałem zbudować pierwsze sieci neuronowe splotowe, np. Do klasyfikowania wielocyfrowych notatek odręcznych, ale jestem całkowicie nowy w analizowaniu i grupowaniu tekstów, np. W zadaniach …



3
Modele tematyczne dla krótkich dokumentów
Zainspirowany tym pytaniem zastanawiam się, czy nie wykonano żadnej pracy nad modelami tematycznymi dla dużych kolekcji niezwykle krótkich tekstów. Moją intuicją jest to, że Twitter powinien być naturalną inspiracją dla takich modeli. Jednak z niektórych ograniczonych eksperymentów wygląda na to, że standardowe modele tematyczne (LDA itp.) Działają dość słabo na …

2
Przykłady eksploracji tekstu za pomocą R (pakiet tm)
Spędziłem trzy dni, bawiąc się tmpo przeczytaniu dokumentu roboczego przez znajomego, w którym zbadał korpus tekstowy za pomocą UCINET, pokazując chmury tekstowe, dwumodowe wykresy sieciowe i rozkład pojedynczej wartości (z grafiką, przy użyciu Staty). Wystąpiło wiele problemów: w systemie Mac OS X występują problemy z Javą za bibliotekami takimi jak …
14 r  text-mining 

2
W jakim momencie n-gramy przynosi efekt przeciwny do zamierzonego?
Podczas przetwarzania języka naturalnego można wziąć korpus i ocenić prawdopodobieństwo wystąpienia następnego słowa w sekwencji n. n jest zwykle wybierane jako 2 lub 3 (bigramy i trygramy). Czy istnieje znany punkt, w którym śledzenie danych dla n-tego łańcucha staje się nieproduktywne, biorąc pod uwagę czas potrzebny do sklasyfikowania konkretnego korpusu …

1
Automatyczne wyodrębnianie słów kluczowych: użycie podobieństw cosinusu jako funkcji
Mam matrycę terminów dokumentowych , a teraz chciałbym wyodrębnić słowa kluczowe dla każdego dokumentu za pomocą nadzorowanej metody uczenia się (SVM, Naive Bayes, ...). W tym modelu używam już Tf-idf, znacznika Pos, ...M.M.M Ale teraz zastanawiam się nad kolejnymi. Mam macierz z podobieństwami cosinusowymi między warunkami.dodoC Czy istnieje możliwość wykorzystania …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.