NLP - Czy Gazetteer to oszustwo?

W NLP istnieje koncepcja, Gazetteerktóra może być bardzo przydatna do tworzenia adnotacji. O ile rozumiem:

Gazeter składa się z zestawu list zawierających nazwy podmiotów, takich jak miasta, organizacje, dni tygodnia itp. Listy te służą do wyszukiwania wystąpień tych nazw w tekście, np. Do zadania rozpoznawania nazwanych podmiotów.

Jest to więc w zasadzie wyszukiwanie. Czy to nie jest oszustwo? Jeśli używamy a Gazetteerdo wykrywania nazwanych bytów, to niewiele się Natural Language Processingdzieje. Idealnie chciałbym wykryć nazwane byty za pomocą NLPtechnik. W przeciwnym razie, jak to jest lepsze niż dobór wzorca wyrażeń regularnych?

nlp named-entity-recognition

— AbtPst
źródło

Nie nazwałbym tego oszustwem per se ... chyba że zostałeś specjalnie zaprojektowany do korzystania z nie-słownikowego rozwiązania wyszukiwania. Nie nazwałbym tego również tradycyjnym NLP, chociaż nigdy nie powinieneś przeoczyć znacznego przebiegu, jaki możesz uzyskać dzięki prostemu rozwiązaniu problemu.

— Kyle.

Być może możesz go użyć do szkolenia rozpoznawania nazwanych bytów. Co twój gazeter zrobi z bytami spoza jego korpusu?

— Emre,

Miałem nadzieję, że dzięki poprawnemu użyciu tagów pos i porcji rzeczowników nigdy nie będę potrzebować gazetera. czy to jest możliwe?

— AbtPst

W branży nie ma czegoś takiego jak oszukiwanie. :-) Ale w każdym razie, jeśli chcesz „ogólnego podejścia”, musisz zacząć od pewnych danych z adnotacjami, tj. Nasion, aby nauczyć się kontekstów, w których pojawiają się NE, aby dowiedzieć się więcej NE.

— Adam Bittlingmayer

Odpowiedzi:

Gazetteer lub jakakolwiek inna opcja celowo ustalonego rozmiaru wydaje się bardzo popularnym podejściem w artykułach akademickich , gdy masz problem ze skończonym rozmiarem, na przykład NER w stałej korpusie, tagowanie POS lub cokolwiek innego. Nie uważam tego za oszustwo, chyba że jedyną funkcją, której będziesz używać, jest dopasowywanie Gazetteer.

Jednak podczas trenowania dowolnego modelu NLP, który opiera się na słowniku podczas treningu, możesz uzyskać rzeczywistą wydajność znacznie niższą niż wynikałoby to z początkowych testów, chyba że możesz dołączyć wszystkie interesujące obiekty do gazetera (i dlaczego to robisz potrzebujesz tego modelu?), ponieważ Twój wyszkolony model będzie w pewnym momencie polegał na tej funkcji, a w przypadku, gdy inne cechy będą zbyt słabe lub nie opisowe, nowe interesujące obiekty nie zostaną rozpoznane.

Jeśli używasz Gazetteer w swoich modelach, powinieneś upewnić się, że ta funkcja ma funkcję licznika, która pozwala samemu zachować równowagę, aby proste dopasowanie słownika nie było jedyną cechą klasy dodatniej (a co ważniejsze, gazetteer powinien pasują nie tylko pozytywne przykłady, ale także negatywne).

Załóżmy na przykład, że masz pełny zestaw nieskończonych odmian wszystkich nazwisk osób, co powoduje, że ogólna osoba NER nie ma znaczenia, ale teraz próbujesz zdecydować, czy obiekt wspomniany w tekście jest zdolny do śpiewania. Będziesz polegał na funkcjach włączenia do swojego Gazetera Person, co da ci wiele fałszywych wyników pozytywnych; następnie dodasz funkcję „ Jest przedmiotem czasownika śpiewać ”, a to prawdopodobnie dałoby fałszywe pozytywy z wszelkiego rodzaju przedmiotów, takich jak ptaki, twój brzuch, gdy jesteś głodny, i pijany facet, który myśliumie śpiewać (ale bądźmy szczerzy, nie może) - ale ta funkcja czasownika będzie się równoważyła z twoim dziennikiem, aby przypisać pozytywną klasę „Singera” osobom, a nie zwierzętom lub innym przedmiotom. Nie rozwiązuje to jednak sprawy pijanego wykonawcy.

— chewpakabra
źródło

Korzystanie z listy podmiotów ma kilka wad:

Lista jest zamknięta
Lista nie jest zależna od kontekstu. Potrzebujesz kontekstu, aby odróżnić „biały dom” od „białego domu”.
Tworzenie listy wymaga dużo pracy
Lista może również zawierać błędy.
To jest jak oszustwo (lub na liście nie są używane żadne informacje NLP).

Możesz poradzić sobie z tymi wadami, postępując zgodnie z sugerowanym kierunkiem @emre i skorzystać z listy, aby nauczyć się klasyfikatora.

Na przykład możesz użyć żetonów w pobliżu bytu i nauczyć się zasady, że „Mieszkam w X” jest wskaźnikiem miejsca, a „Rozmawiałem z X” jest wskaźnikiem osoby. Możesz zagrać w tę grę przez kilka rund, zwiększając swoją listę według trafień reguł i korzystając z nowej listy, aby dowiedzieć się więcej.

Nie należy zapominać, że podczas tej nauki wprowadzasz do danych szumy, więc w większości przypadków nauka powinna być prosta.

— DaL
źródło