Obecnie szukam zestawów danych z etykietami, aby trenować model wyodrębniania nazwanych elementów z nieformalnego tekstu (coś podobnego do tweetów). Ponieważ w dokumentach w moim zestawie danych często brakuje wielkich liter i gramatyki, szukam danych poza domeną, które są nieco bardziej „nieformalne” niż artykuły prasowe i wpisy do dziennika, że wiele współczesnych systemów rozpoznawania nazwanych jednostek jest przeszkolony na.
Jakieś rekomendacje? Do tej pory udało mi się zlokalizować tylko 50 000 tokenów z opublikowanego tutaj Twittera .