Jak zdobyć bazę danych słów w języku angielskim? [Zamknięte]


148

Potrzebuję bazy danych wszystkich ważnych słów w języku angielskim. Sprawdziłem /usr/share/dict/wordsplik, zawiera mniej niż 100 tys. Słów. Według Wikipedii angielski ma 475 tys. Słów. Gdzie znajdę pełną listę (pisownia amerykańska)?

Czy istnieje też jedna witryna internetowa, która zawiera słowa także w innych językach, w tym w językach azjatyckich i europejskich?

Edycja: zapomniałem dodać, nie potrzebuję nazw itp., Tylko prawidłowe angielskie słowa.


9
Mój /usr/share/dict/wordsma 479829 słów, więc może jest tutaj jakaś wariacja (i może być odpowiednia dla innych).
marshall.ward

4
wc -l /usr/share/dict/wordsna Macu to 235.886 słów (lipiec 2014 - OSX Mavericks
10.9.4

2
Najlepsza lista, jaką znalazłem: raw.githubusercontent.com/docdis/english-words/master/… . Podziękowania dla @nelsonic.
james.garriss


1
Listę roboczą można uzyskać tutaj marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. poszukaj linku LISTA SŁÓW po prawej stronie
kofifus

Odpowiedzi:


75

Baza danych WordNet może być pomocna. Kiedyś pracowałem nad dodatkiem do Firefoksa, który zajmuje się słowami i wszelkiego rodzaju prostymi lub skomplikowanymi skojarzeniami między nimi a rzeczami. Wygląda na to, że WordNet będzie dla ciebie bardzo przydatny.

Tutaj jest w formacie MySQL . A ten (łącze zarchiwizowane w Internecie) wykorzystuje dane Wordnet v3.0, a nie starsze dane Wordnet 2.0.


czy mają też listę do pobrania?

1
Tak, umożliwiają pobieranie bazy danych w wielu formatach - CSV, baza danych MySQL itp., A nawet mają interfejsy API, z których można korzystać za pośrednictwem .Net, Java itp. ... To jest strona pobierania - wordnet.princeton .edu / wordnet / download
user266803


Nie pobrałem go osobiście, ale był gotowy, kiedy zacząłem kodować. Więc nie wiem, jakie pliki będą tam do pobrania. Po prostu wiem, że możesz pobierać w różnych formatach. Jeśli możesz mi powiedzieć, w jakim formacie chcesz, będę mógł pomóc.
user266803

Naprawdę wygląda na bardzo interesujący projekt.
Wim Hollebrandse,

36

Możesz znaleźć to, czego potrzebujesz, na infochimps.org .

Mają listę 350 000 prostych (tj. Niezłożonych) słów dostępnych do bezpłatnego pobrania.

Lista słów - ponad 350 000 prostych angielskich słów

Jeśli chodzi o inne języki, możesz przejrzeć Wikisłownik. Oto link do wszystkich kopii zapasowych bazy danych - informacje nie są tak uporządkowane, ale jeśli mają język, możesz pobrać dane w formacie SQL.


6
Link do pobrania się zmienił - infochimps.com/datasets/…
Chris Rae

36
Irytująco plik infochimps to .xls (plik Excela ze słowami podzielonymi na 6 arkuszy!) ... Wyodrębniłem wszystkie 354986 słów do pliku txt : github.com/nelsonic/english-words
nelsonic

@nelsonic wielkie dzięki, link do infochimps to 404

1
@ChrisRae oba linki nie działają
garg10

5
Wygląda na to, że zawierają słowa z błędami ortograficznymi, jak np. technologia - prawdopodobnie dlatego, że zbierają wszystko, co pojawia się w sieci. jest więc dobry do łamania / sprawdzania poprawności haseł, ale nie nadaje się do aplikacji wymagających prawdziwych słów (takich jak sprawdzanie pisowni itp.).
maksymalnie

13

Nie widzę wspomnianego tutaj http://wordlist.sourceforge.net/ , ale od tego bym zaczął, gdybym szukał czegoś takiego (i byłem, kiedy natknąłem się na to pytanie).

Jeśli nie możesz tam znaleźć tego, czego szukasz, a szukasz listy angielskich słów, prawdopodobnie powinieneś poświęcić trochę czasu na opisanie, jak rozpoznać, czego chcesz.


1
Miałem nadzieję, że te szersze listy będą zawierały słowa z interpunkcją, takie jak „C ++” lub „C #”, ale nie mogłem znaleźć żadnego. Więc jeśli to jest to, czego szukasz, możesz zwarcie, możesz pominąć ten (i węższe listy w innych odpowiedziach).
płyty kuchenne

9

Nie ma czegoś takiego jak „pełna” lista. Różni ludzie mają różne sposoby pomiaru - na przykład mogą obejmować slang, neologizmy, wyrażenia wielowyrazowe, obraźliwe terminy, obce słowa, koniugacje czasowników i tak dalej. Niektórzy policzyli nawet milion słów ! Musisz więc zdecydować, co chcesz na liście słów.


3
Dzięki za ten link. Bardzo pouczająca lektura na temat tego, ile słów jest w języku angielskim i bezskuteczności próby ustalenia ich ostatecznej liczby. Bardziej zwięzłą i aktualną lekturę można znaleźć na stronie: en.oxforddictionaries.com/explore/language-questions/… .
Prometeusz

4

Możesz sprawdzić *spell słownik en-GB używany przez Mozillę, OpenOffice i wiele innych programów.


link na mozilla pl-gb.pyxidium.co.uk/dictionary/en_GB.zip mówi, że serwer nie został znaleziony, jakaś aktualizacja? dzięki

@AMB Dzięki, zaktualizowałem link, aby wskazywał na alternatywne źródło słownika pod adresem extensions.openoffice.org/en/project/ ...
mloskot

A teraz nowy link to 404, @mloskot.
james.garriss

@ james.garriss Obawiam się, że cała witryna extensions.openoffice.org nie działa .
mloskot

3

Nie powiedziałeś, do czego potrzebujesz tej listy. Jeśli coś, co jest używane jako czarna lista do sprawdzania haseł, wystarczy, cracklib może być dla Ciebie dobry. Zawiera ponad 1,5 mln słów.


1
nie, nie na czarną listę. Robię jakąś grę słowną / wykres.

Zawiera dużo „śmieciowych słów”, ale nadal jestem bardzo wdzięczny, że umieściłeś to tutaj - jest to idealne rozwiązanie, gdy szukasz określonych słów, których nie mają inne słowniki (np.
Wóz
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.