Zestaw danych do rozpoznawania nazwanych jednostek w tekście nieformalnym

18

Obecnie szukam zestawów danych z etykietami, aby trenować model wyodrębniania nazwanych elementów z nieformalnego tekstu (coś podobnego do tweetów). Ponieważ w dokumentach w moim zestawie danych często brakuje wielkich liter i gramatyki, szukam danych poza domeną, które są nieco bardziej „nieformalne” niż artykuły prasowe i wpisy do dziennika, że wiele współczesnych systemów rozpoznawania nazwanych jednostek jest przeszkolony na.

Jakieś rekomendacje? Do tej pory udało mi się zlokalizować tylko 50 000 tokenów z opublikowanego tutaj Twittera .

dataset nlp

— Madison May
źródło

2

Polecam pytanie na opendata.stackexchange.com

— Air

@Madison May. Znalazłeś zestaw danych? Szukam czegoś podobnego. Dzięki.

— ahoffer

Musiałem zadowolić się twitter ner corpus z U. Washington (link do oryginalnego postu).

— Madison,

FYI Corpus otagowanego tekstu (angielskie gazety lub dowolny otagowany tekst)

— Franck Dernoncourt

masz jakiś pokrewny korpus z adnotacjami w języku angielskim?

— Achyuta nanda sahoo

6

Jak rozumiem, są to właściwości, których szukasz w przykładowym zbiorze danych:

Dane tekstowe
Powinien być nieformalny, tzn. Mieć literówki, slang i zasadniczo coś, co nie jest profesjonalnie edytowane
Coś innego niż Twitter (nie obwiniam cię, Twitter jest przydatnym, ale w dużym stopniu nadużywanym przykładowym źródłem danych w eksploracji tekstu)

Oto kilka zaleceń:

E-maile z korpusu SpamAssassin - zwróć uwagę, że dostępne są zarówno zestawy danych „ham” (niebędące spamem), jak i zestawy spamu
zestaw danych microblogPCU z UCI, który jest danymi zeskrobanymi z mikroblogów użytkowników Sina Weibo - uwaga, surowe dane tekstowe to mieszanka chińskiego i angielskiego (można wykonać tłumaczenie maszynowe chińskiego, filtrować tylko na angielski lub użyć go jak jest)
Amazon Commerce przegląda zestaw danych z UCI
W zestawie danych bag-o-words spróbuj użyć wiadomości e-mail Enron
Zestaw danych Twenty Newsgroups
Ta ładna kolekcja spamu SMS
Zawsze możesz zeskrobać (wyodrębnić) własne dane tekstowe z Internetu; Nie jestem pewien, w jakim języku lub pakiet statystyczny używasz, ale pakiety XPath oparte są dostępne w R ( rvest, scrapeR, etc) i Pythonie do osiągnięcia tego

— Hack-R
źródło

1

Czy którykolwiek z tych zestawów danych jest opatrzony adnotacjami z nazwanymi podmiotami? Myślę, że tego właśnie szukał OP.

— Mr. Phil

3

Sprawdź te:

Repozytorium domen testowych do pozyskiwania informacji: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( mirror )

Link zaktualizowany:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
źródło

1

Zaktualizuj te linki, ponieważ żadne z nich już nie działa.

— Mr. Phil

0

Niektóre źródła, z których korzystałem:

Klasyczny korpus CONLL: zbiór danych CONLL
Jedno źródło Kaggle, które warto wypróbować: Kaggle NER Corpus
OntoNotes Release 5.0: Onto Notes
Zadanie rozpoznawania podmiotu biologicznego : podmioty gospodarcze
Inny zestaw danych powiązanych z e-mailem: Zestaw danych e-mail Enron

Myślę, że te zestawy danych będą bardzo pomocne w twoim zadaniu

— Gyan Ranjan
źródło