Jakie są wszystkie możliwe tagi POS NLTK?

141

Jak znaleźć listę wszystkich możliwych tagów pos używanych przez Natural Language Toolkit (nltk)?

python nltk

— OrangeTux
źródło

151

W książce znajduje się uwaga, jak znaleźć pomoc dotyczącą zestawów tagów, np .:

nltk.help.upenn_tagset()

Inni są prawdopodobnie podobni. (Uwaga: może najpierw musisz pobrać tagsetsz sekcji modeli pomocnika pobierania )

— phipsgabler
źródło

3

Teraz jestem ciekawy: co jest w tym takiego tajemniczego? Nigdy nie rzeczywiście wykorzystane NLTK, a znalezienie takiej odpowiedzi zajęło mi pięć minut googlowania i searching ... Czy to naprawdę , że ukryte?

— phipsgabler

5

Myślę, że to nie jest kwestia tego, jak ukryte, to też przyszło mi do głowy, próbując otagować pojedyncze zdanie, ponieważ szukam powodu, dla którego nltk oznacza moje czasowniki jako rzeczowniki i nie wiedziałem, jak różne tagi może być użyty. To też było pomocne, dzięki!

— Phonebox

2

@phipsgabler Jeśli inni są tacy jak ja, miałem złe oczekiwania. Spodziewałem się tabeli przeglądowej / listy / mapy, odwzorowującej akronimy pozycji, takie jak RBich znaczenie adverb. ( Oto przykład ; lub zobacz odpowiedź @ Suzana, która łączy zestaw znaczników Penn Treebank ). Ale masz rację, polecenie wbudowane nltk.help.upenn_tagset('RB')jest pomocny, i wspomniał na początku nltkksiążki ,

— Red Pea

137

Aby zaoszczędzić trochę czasu, oto lista, którą wyodrębniłem z małego korpusu. Nie wiem, czy jest kompletna, ale powinna zawierać większość (jeśli nie wszystkie) definicji pomocy z upenn_tagset ...

CC : koniunkcja, koordynacja

& 'n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet

CD : liczebnik, kardynał

mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
fifteen 271,124 dozen quintillion DM2,000 ...

DT : determinator

all an another any both del each either every half la many much nary
neither no some such that the them these this those

EX : egzystencjalny

there

IN : przyimek lub koniunkcja, podrzędność

astride among uppon whether out inside pro despite on by throughout
below within for towards near behind atop around if like until below
next into if beside ...

JJ : przymiotnik lub liczebnik, porządkowa

third ill-mannered pre-war regrettable oiled calamitous first separable
ectoplasmic battery-powered participatory fourth still-to-be-named
multilingual multi-disciplinary ...

JJR : przymiotnik, stopień porównawczy

bleaker braver breezier briefer brighter brisker broader bumper busier
calmer cheaper choosier cleaner clearer closer colder commoner costlier
cozier creamier crunchier cuter ...

JJS : przymiotnik, stopień najwyższy

calmest cheapest choicest classiest cleanest clearest closest commonest
corniest costliest crassest creepiest crudest cutest darkest deadliest
dearest deepest densest dinkiest ...

LS : znacznik pozycji listy

A A. B B. C C. D E F First G H I J K One SP-44001 SP-44002 SP-44005
SP-44007 Second Third Three Two * a b c d first five four one six three
two

MD : modalne pomocnicze

can cannot could couldn't dare may might must need ought shall should
shouldn't will would

NN : rzeczownik, pospolity, liczba pojedyncza lub masa

common-carrier cabbage knuckle-duster Casino afghan shed thermostat
investment slide humour falloff slick wind hyena override subhumanity
machinist ...

NNP : rzeczownik, właściwy, liczba pojedyncza

Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
Shannon A.K.C. Meltex Liverpool ...

NNS : rzeczownik, pospolity, liczba mnoga

undergraduates scotches bric-a-brac products bodyguards facets coasts
divestitures storehouses designs clubs fragrances averages
subjectivists apprehensions muses factory-jobs ...

PDT : środek wstępny

all both half many quite such sure this

POS : marker dopełniacza

' 's

PRP : zaimek osobowy

hers herself him himself hisself it itself me myself one oneself ours
ourselves ownself self she thee theirs them themselves they thou thy us

PRP $: zaimek dzierżawczy

her his mine my our ours their thy your

RB : przysłówek

occasionally unabatingly maddeningly adventurously professedly
stirringly prominently technologically magisterially predominately
swiftly fiscally pitilessly ...

RBR : przysłówek, stopień porównawczy

further gloomier grander graver greater grimmer harder harsher
healthier heavier higher however larger later leaner lengthier less-
perfectly lesser lonelier longer louder lower more ...

RBS : przysłówek, stopień najwyższy

best biggest bluntest earliest farthest first furthest hardest
heartiest highest largest least less most nearest second tightest worst

RP : cząstka

aboard about across along apart around aside at away back before behind
by crop down ever fast for forth from go high i.e. in into just later
low more off on open out over per pie raising start teeth that through
under unto up up-pp upon whole with you

TO : „to” jako przyimek lub bezokolicznik

to

UH : wykrzyknik

Goodbye Goody Gosh Wow Jeepers Jee-sus Hubba Hey Kee-reist Oops amen
huh howdy uh dammit whammo shucks heck anyways whodunnit honey golly
man baby diddle hush sonuvabitch ...

VB : czasownik, forma podstawowa

ask assemble assess assign assume atone attention avoid bake balkanize
bank begin behold believe bend benefit bevel beware bless boil bomb
boost brace break bring broil brush build ...

VBD : czasownik, czas przeszły

dipped pleaded swiped regummed soaked tidied convened halted registered
cushioned exacted snubbed strode aimed adopted belied figgered
speculated wore appreciated contemplated ...

VBG : czasownik, imiesłów teraźniejszy lub gerundium

telegraphing stirring focusing angering judging stalling lactating
hankerin' alleging veering capping approaching traveling besieging
encrypting interrupting erasing wincing ...

VBN : czasownik, imiesłów bierny

multihulled dilapidated aerosolized chaired languished panelized used
experimented flourished imitated reunifed factored condensed sheared
unsettled primed dubbed desired ...

VBP : czasownik, czas teraźniejszy, a nie trzecia osoba liczby pojedynczej

predominate wrap resort sue twist spill cure lengthen brush terminate
appear tend stray glisten obtain comprise detest tease attract
emphasize mold postpone sever return wag ...

VBZ : czasownik, czas teraźniejszy, 3. osoba liczby pojedynczej

bases reconstructs marks mixes displeases seals carps weaves snatches
slumps stretches authorizes smolders pictures emerges stockpiles
seduces fizzes uses bolsters slaps speaks pleads ...

WDT : WH-determininer

that what whatever which whichever

WP : zaimek WH

that what whatever whatsoever which who whom whosoever

WRB : Wh-przysłówek

how however whence whenever where whereby whereever wherein whereof why

— binarymax
źródło

2

@PALEN czego brakuje?

— binarymax

2

Brakujące: $, '', (, ), ,, --, ., :, FW, NNPS, SYM, WP$, [dwóch backticks]. Zobacz nltk.help.upenn_tagset().

6

Dzięki! Powinno to być wybrana odpowiedź, ponieważ jest ona znacznie bardziej wszechstronna niż zwykła odpowiedź, po prostu wpisz coś w konsoli, aby się dowiedzieć.

— slartibartfast

63

Zestaw tagów zależy od korpusu, który został użyty do szkolenia taggera. Domyślny tagger nltk.pos_tag()używa zestawu znaczników Penn Treebank .

W NLTK 2 możesz sprawdzić, który tagger jest domyślnym taggerem w następujący sposób:

import nltk
nltk.tag._POS_TAGGER
>>> 'taggers/maxent_treebank_pos_tagger/english.pickle'

Oznacza to, że jest to tagger Maximum Entropy wyszkolony w korpusie Treebank.

nltk.tag._POS_TAGGERnie istnieje już w NLTK 3, ale dokumentacja stwierdza, że gotowy tagger nadal używa zestawu znaczników Penn Treebank.

— Suzana
źródło

6

Dziękuję, imo, to o wiele bardziej przydatna odpowiedź niż zaakceptowana.

— Dale

3

To jest niepełna odpowiedź. Po pierwsze, nltk.tag._POS_TAGGERnie wykonuje się i nie ma konkretnych instrukcji dotyczących tego, co należy importować. Ponadto, stwierdzenie, że używany tagger jest połową odpowiedzi, pytanie brzmi: prosi o uzyskanie listy wszystkich możliwych tagów w taggerze

— Hamman Samuel

3

To korpus, a nie tagger określa zestaw tagów. Gdy tylko poznasz nazwę korpusu, cały zestaw tagów jest dostępny tylko w Google.

— Suzana

34

Poniższe mogą być przydatne, aby uzyskać dostęp do dyktu ze skrótami:

>>> from nltk.data import load
>>> tagdict = load('help/tagsets/upenn_tagset.pickle')
>>> tagdict['NN'][0]
'noun, common, singular or mass'
>>> tagdict.keys()
['PRP$', 'VBG', 'VBD', '``', 'VBN', ',', "''", 'VBP', 'WDT', ...

— Doug Shore
źródło

2

Wolę takie podejście niż przyjęte rozwiązanie, ponieważ jest prostsze i wyraźnie wylicza możliwe wartości

— Hamman Samuel

1

Skąd mamy pewność, że jest to zestaw tagów używany przez taggera? Afaik nltk może używać kilku taggerów.

— Nikana Reklawyks

Zgadzam się z Hammanem, ten sposób ma dodatkową

— zaletę polegającą na

28

Odniesienie jest dostępne na oficjalnej stronie

Skopiuj i wklej stamtąd:

CC | Koniunkcja koordynacyjna |
CD | Numer kardynalny |
DT | Determiner |
EX | Egzystencjalne tam |
FW | Słowo obce |
IN | Przyimek lub koniunkcja podrzędna |
JJ | Przymiotnik |
JJR | Przymiotnik, stopień porównawczy |
JJS | Przymiotnik, stopień najwyższy |
LS | Znacznik pozycji listy |
MD | Modalne |
NN | Rzeczownik, liczba pojedyncza lub masa |
NNS | Rzeczownik w liczbie mnogiej |
NNP | Rzeczownik w liczbie pojedynczej |
NNPS | Rzeczownik w liczbie mnogiej |
PDT | Predeterminer |
POS | Zaborcze zakończenie |
PRP | Zaimek osobowy |
PRP $ | Zaimek dzierżawczy |
RB | Przysłówek |
RBR | Przysłówek porównawczy |
RBS | Przysłówek, stopień najwyższy |
RP | Cząstka |
SYM | Symbol |
DO | do |
UH | Wykrzyknik |
VB | Czasownik, forma podstawowa |
VBD | Czasownik w czasie przeszłym |
VBG | Czasownik, rzeczownik odczasownikowy lub imiesłów teraźniejszy |
VBN | Czasownik, imiesłów bierny |
VBP | Czasownik nie będący trzecią osobą liczby pojedynczej obecny |
VBZ | Czasownik, 3. osoba liczby pojedynczej obecny |
WDT | Określacz Wh |
WP | Zaimek Wh |
WP $ | Zaimek dzierżawczy Wh |
WRB | Wh-przysłówek |

— mdubez
źródło

1

Listę możesz pobrać tutaj: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Obejmuje mylące części mowy, wielkie litery i inne konwencje. Również Wikipedia ma podobną interesującą sekcję. Sekcja: używane znaczniki części mowy.

— phanindravarma
źródło

1

['LS', 'TO', 'VBN', "''", 'WP', 'UH', 'VBG', 'JJ', 'VBZ', '--', 'VBP', 'NN', 'DT', 'PRP', ':', 'WP$', 'NNPS', 'PRP$', 'WDT', '(', ')', '.', ',', '``', '$', 'RB', 'RBR', 'RBS', 'VBD', 'IN', 'FW', 'RP', 'JJR', 'JJS', 'PDT', 'MD', 'VB', 'WRB', 'NNP', 'EX', 'NNS', 'SYM', 'CC', 'CD', 'POS']

Oparty na metodzie Douga Shore'a, ale powinien być bardziej przyjazny dla kopiowania i wklejania

— little_thumb
źródło

Przyjmuję to jako wygodę. Rozważałem ulepszenie formatowania, ale może to być sprzeczne z celem tego postu. Rozważ edycję i używanie formatowania kodu w połączeniu z nowymi wierszami, aby uzyskać zarówno ładne formatowanie, jak i łatwość kopiowania i wklejania. stackoverflow.com/editing-help

— Yunnosch

Rozważałem zrobienie tego, ale myślę, że byłoby to mniej wygodne.

— Fluffy Ribbit

0

Po prostu uruchom to dosłownie.

import nltk
nltk.download('tagsets')
nltk.help.upenn_tagset()

nltk.tag._POS_TAGGERnie zadziała. Daje AttributeError: moduł „nltk.tag” nie ma atrybutu „_POS_TAGGER” . Nie jest już dostępny w NLTK 3.

— Sumit Pokhrel
źródło