Czy istnieje oprogramowanie, które przeprowadza analizę tekstową na blogach? [Zamknięte]


8

Moja firma chce stworzyć wizualizację PivotViewer postów na blogu Wordpress 2 klienta przez ostatnie 11 lat. Aby to zrobić, musimy jednak edytować nieco przypadkowe, niekompletne i ogólnie kiepskie tagi do wykorzystania jako kategorie do sortowania. Szukam narzędzia, które przeanalizuje ich wpisy na blogu i przeprowadzi liczenie słów, aby dać nam pojęcie o tym, z czym mamy do czynienia.

Idealnie byłoby mieć wszystkie te funkcje:

  1. Słowo czarna lista (ignoruj)
  2. Słowo związane
  3. Niestandardowe scalanie synonimów
  4. Licząc wszystkie zastosowania
  5. Liczenie postów, w których pojawia się słowo.

Myślałem, że tego rodzaju analiza tekstowa byłaby niezwykle powszechna, ale nie znalazłem żadnego oprogramowania, które robi takie rzeczy na całych blogach. Czy jest do tego dostępne oprogramowanie?


3
Ciekawy. W razie wątpliwości Python ma twoje plecy.
James T Snell,

Taa ... Naprawdę mam nadzieję, że nie będę musiał się na tym opierać.
Brian Bauman,

jest coś, co to robi ... Pamiętam przyjaciela, który przeanalizował wikipedię ...
Sprawdzę

Odpowiedzi:


3

Oprogramowanie, którego szukasz, może mieć wiele tytułów, takich jak „Analiza treści” , „Chmura tagów” lub „Meta tagi” i wiele innych, takich jak „analiza tekstu” i „eksploracja tekstu”.

Istnieje bardzo wiele narzędzi programowych do tych celów, zarówno bezpłatnych, jak i komercyjnych.

Nie mam osobistego doświadczenia z takimi narzędziami, ale dobrym miejscem na początek są narzędzia do analizy tekstu, w których wymieniono dziesiątki takich narzędzi, zarówno bezpłatnych, jak i komercyjnych.

Inną taką listą jest oprogramowanie do analizy tekstu, eksploracji tekstu i wyszukiwania informacji .


Przefiltrowałem swoją pierwszą listę, ale żadna z bezpłatnych opcji nie zawiera niczego więcej niż analizy językowej. Jeszcze nie przejrzałem drugiej listy - może skończę tworzyć własne.
Brian Bauman,

2

Spójrz na Rapidminer lub Weka

Ponieważ jest to blog klientów, prawdopodobnie masz dostęp do bazy danych. Pobierz wszystkie artykuły jako zwykły tekst i skorzystaj z jednego z powyższych programów, aby odpowiedzieć na pytania dotyczące przetwarzania języka naturalnego (1,2,3 i 5).

Naprawdę zautomatyzowana jest liczba zastosowań, ponieważ ma to związek z automatycznym określaniem znaczenia słów za pomocą kontekstu.


Licząc wszystkie zastosowania, a nie użytkowników. Dziękuję za sugestie.
Brian Bauman

Źle odczytałem, mój panie. Nadal powinieneś sprawdzić Rapidminer lub Weka do przetwarzania języka naturalnego. To znaczy, chyba że zestaw danych jest ogromny, ponieważ oba starają się zmieścić go w pamięci
suweller

2

jednym z najbardziej oprogramowania do analizy treści jest WordStat zaprojektowany przez Provalis Research

WordStat to moduł analizy tekstu dla QDA Miner lub SimStat. WordStat łączy metodę analizy treści za pomocą słownika i wielu algorytmów eksploracji lub różnych metod eksploracji tekstu. WordStat może zastosować istniejące słowniki kategoryzacji do nowego korpusu tekstu. Może być również wykorzystywany do opracowywania i sprawdzania poprawności nowych słowników kategoryzacji. W połączeniu z ręcznym kodowaniem moduł ten może pomóc w bardziej systematycznym stosowaniu reguł kodowania, pomóc odkryć różnice w użyciu słów między podgrupami osób i pomóc w rewizji istniejącego kodowania za pomocą tabel KWIC (Keyword In Context). WordStat został specjalnie zaprojektowany do badania informacji tekstowych, takich jak odpowiedzi na pytania otwarte, wywiady, tytuły, artykuły w czasopismach, wystąpienia publiczne, komunikacja elektroniczna itp.

http://provalisresearch.com/products/content-analysis-software/



0

Na niektóre z tych pytań można odpowiedzieć w szybki i brudny sposób za pomocą wyszukiwarki Google na swoim blogu (najłatwiej, jeśli ma własną domenę).


0

Zemanta analizuje i może sugerować tagi i linki. To także wtyczka wordpress.

Jedyny problem: w obecnym stanie wymaga ręcznego otwierania oraz wybierania i zapisywania każdego postu.

Istnieje jednak ogromna liczba wtyczek automatycznego tagowania dla wordpress. Powinieneś przeszukać wyszukiwarkę wtyczek i spróbować.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.