Szukam dużego (> 1000) korpusu tekstu do pobrania. Najlepiej z wiadomościami ze świata lub raportami . Znalazłem tylko jednego z patentami. Jakieś sugestie?
Szukam dużego (> 1000) korpusu tekstu do pobrania. Najlepiej z wiadomościami ze świata lub raportami . Znalazłem tylko jednego z patentami. Jakieś sugestie?
Odpowiedzi:
Czy teksty Wikileaks nie odpowiadają tobie?
Co z wikinews ? Oto najnowszy zrzut bazy danych, który mogłem znaleźć: http://dumps.wikimedia.org/enwikinews/20111120/
Prawdopodobnie chcesz „Wszystkie strony, tylko bieżące wersje.” - wersja.
Korpus tekstowy Reutera jest klasykiem w tej dziedzinie i można go znaleźć tutaj
http://endb-consolidated.aihit.com/datasets.htm zawiera 10 tys. firm z opisami tekstowymi
Jeśli aktualność nie stanowi problemu, możesz spróbować
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
w infochimp istnieje wiele innych podobnych zestawów danych, w zależności od budżetu.
Pozdrawiam, Andy.
Jeśli chcesz wstępnie obliczyć n-gramów, możesz wypróbować archiwum książek Google: