Źródła listy słów


11

Szukam źródła rzeczowników, przysłówków, przymiotników i czasowników w kilku językach.

Chciałbym, aby listy były już podzielone i nie musiałem ręcznie przeglądać OED (i odpowiedników w języku innym niż angielski), ręcznie tworząc te listy.

Naprawdę nie dbam o definicje i rozumiem, że niektóre słowa mogą być wieloma częściami mowy - to dobrze - słowa takie jak „wiele” mogą być rzeczownikiem lub przymiotnikiem i mogą pojawiać się na obu listach.

Czy ktoś tu wie o takim źródle? Jeśli nie, to czy ktoś może skierować mnie w dobrym kierunku?

Nie przeszkadza mi żaden z poniższych formatów (lub podobny, jeśli ludzie mają pomysły):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • pliki tekstowe, takie jak „rzeczowniki”, „czasowniki” itp
  • tabela mysql
  • itp

Odpowiedzi:



4

To nie może w ogóle pomóc, nie wiem. Ale MediaWiki ma interfejs API do wyświetlania wszystkich stron należących do określonej kategorii. Możesz spróbować użyć go na Wiktionary.org.

Uwagi:

  • Każde zapytanie zwraca tylko 500 wyników. Jednak na końcu określa również parametr, który należy zastosować w innym zapytaniu, aby uzyskać kolejne 500 wyników.
  • Obejmuje wszystko w określonej kategorii, nawet inne podkategorie.
  • Wyniki wydają się być uporządkowane alfabetycznie, chociaż wszystko, co zaczyna się od dużej litery, ma pierwszeństwo przed małymi literami.

Przykłady:

Mam nadzieję, że to pomaga, to jest to, co mogłem wymyślić.


1

Popieram @teknikqa sugestię wordnet, ale sugerowałbym, abyś sprawdził ich API;

STORYTIME : Miałem kurs AI, który miał część analizy języka; Użyłem interfejsu API perla dla wordnet, aby automatycznie wyszukać trzy najlepsze typy definicji i sklasyfikować frazowanie z nich w prawie KONIEC STORYTIME

Istnieją interfejsy API dla wielu języków

FYI: Projekt otrzymał ocenę A +

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.