Skąd mogę pobrać bazę danych słownika angielskiego w formacie tekstowym? [Zamknięte]


130

Muszę przeczytać plik tekstowy pod kątem słowa i zwrócić jego znaczenie. Każdy inny format pliku również będzie działał.


Napisałem pazurkę sieciową dla wszystkich znanych słowników internetowych (Oxford, Longman, Cambridge, Webster i Collins), których możesz użyć do stworzenia zestawu danych. github.com/kiasar/Dictionary_crawler
Peyman

Odpowiedzi:


62

Projekt Gutenberg udostępnia Unabridged English Dictionary Webstera oraz wiele innych dzieł literackich należących do domeny publicznej. Właściwie wygląda na to, że mają kilka wersji słownika z prawami autorskimi z różnych lat. Ten, który podlinkowałem, ma prawa autorskie 2009. Możesz przejrzeć witrynę i zbadać różne wersje słownika Webstera.


1
Ulepszona transkrypcja wersji z 1913 roku w '09, najwyraźniej OCR nie był całkowicie czysty. Na stronie jest łącznie 15 wersji.
DragonLord

57

user1247808 ma dobre łącze z: wget -c

http://www.androidtech.com/downloads/wordnet20-from-prolog-all-3.zip

Jeśli to nie wystarczy dla Ciebie:

http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles-in-ns0.gz (zaktualizowany adres URL z sugestii Michaela Kropata)

Chociaż ta nazwa pliku się zmienia, będziesz chciał znaleźć najnowszy ... który okazuje się być po prostu dużym (bardzo dużym) plikiem tekstowym.

http://dumps.wikimedia.org/enwiktionary/


dzięki… za ten link
AndyBoy,


androidtech / wordnet20 jest w formacie SQL, a nie txt.
DragonLord

1
Uwaga: składnia w wordnet20 ma nieaktualny TYPE = * w pliku .sql. Uruchom, sed -i 's/TYPE=/ENGINE=/g' wordnet20-from-prolog-all-3.sqlaby zastąpić przestarzałą składnię przed uruchomieniem jej w wersji 5.0+ MySQL
Serguei Fedorov,

nie ma prostego pliku txt zawierającego wszystkie angielskie słowa?
Nadav B

27

Nie wiem, czy jest za późno, ale pomyślałem, że pomoże to komuś innemu.

Bardzo chciałem tego samego ... w końcu to znalazłem.

Może nie jest idealny, ale dla mnie jest odpowiedni (dla mojej małej aplikacji słownikowej).

http://www.androidtech.com/downloads/wordnet20-from-prolog-all-3.zip

Nie jest to plik zrzutu, ale plik skryptowy MYSQL .sql

Słowa znajdują się w tabeli WN_SYNSET, a słownik / znaczenie w tabeli WN_GLOSS


4
Na jakiej licencji jest to objęte?
Cole Johnson

2
Nie jestem też pewien, ale na androidtech.com/html/downloads.php jestHere are some files related to natural language and chatterbot projects that we are making available to the public
Betlista

7
Użytkownicy MySQL: instrukcje tworzenia tabeli używają teraz usuniętej opcji TYPE. Uruchom to na pliku, sed -i 's/TYPE=MyISAM/ENGINE=MyISAM/g' filename.sqlaby działał w najnowszym MySQL
anthonygore

15

Sprawdź, czy te bezpłatne zasoby odpowiadają Twoim potrzebom -


8
Wydaje się, że FOLDOC (bezpłatny słownik informatyczny on-line) jest jedynie słownikiem terminów / nazw komputerowych. Dla niektórych może być przydatny, ale nie jest to słownik ogólnego przeznaczenia, w którym można znaleźć większość słów.
Lèse majesté

2
Link do strony ObjectGraph również nie działa. Oficjalne wersje do pobrania znajdują się tutaj .
Lèse majesté

@ Lèsemajesté Twój link również jest teraz martwy
yukashima huksay
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.