Gdzie znaleźć duży korpus tekstowy? [Zamknięte]


16

Szukam dużego (> 1000) korpusu tekstu do pobrania. Najlepiej z wiadomościami ze świata lub raportami . Znalazłem tylko jednego z patentami. Jakieś sugestie?


Ten wątek wydaje się być nie na temat. Zobacz meta.stats.stackexchange.com/questions/1032/… .
whuber

To pytanie wydaje się być nie na temat, ponieważ dotyczy znalezienia zestawu danych, a nie analizy statystycznej
Peter Flom - Przywróć Monikę

2
Cóż, to niezręczne, ponieważ te pytania i odpowiedzi są naprawdę przydatne.
Pokaz boczny Bob

@ guaka, proszę nie podbijać tak starych postów w przypadku tak drobnych zmian, zwłaszcza postu, który jest zamknięty. To prawda, że ​​naszym stylem nie jest „dziękuję”, ale za coś tak drobnego po prostu zostawilibyśmy to.
gung - Przywróć Monikę

Odpowiedzi:




6

Korpus tekstowy Reutera jest klasykiem w tej dziedzinie i można go znaleźć tutaj


To nie jest najciekawszy (ani różnorodny) korpus. Licencja jest również restrykcyjna w stosunku do Wikileaks (dokumenty publiczne w USA) lub wikinews.
ariddell

@ariddell Zgadzam się, ale jest powszechnie używany we wstępnych przykładach NLP i jest wystarczająco duży, aby być przydatnym w nauce, ale wystarczająco mały, aby można go było analizować na dobrym laptopie.
richiemorrisroe



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.