Gazetteer lub jakakolwiek inna opcja celowo ustalonego rozmiaru wydaje się bardzo popularnym podejściem w artykułach akademickich , gdy masz problem ze skończonym rozmiarem, na przykład NER w stałej korpusie, tagowanie POS lub cokolwiek innego. Nie uważam tego za oszustwo, chyba że jedyną funkcją, której będziesz używać, jest dopasowywanie Gazetteer.
Jednak podczas trenowania dowolnego modelu NLP, który opiera się na słowniku podczas treningu, możesz uzyskać rzeczywistą wydajność znacznie niższą niż wynikałoby to z początkowych testów, chyba że możesz dołączyć wszystkie interesujące obiekty do gazetera (i dlaczego to robisz potrzebujesz tego modelu?), ponieważ Twój wyszkolony model będzie w pewnym momencie polegał na tej funkcji, a w przypadku, gdy inne cechy będą zbyt słabe lub nie opisowe, nowe interesujące obiekty nie zostaną rozpoznane.
Jeśli używasz Gazetteer w swoich modelach, powinieneś upewnić się, że ta funkcja ma funkcję licznika, która pozwala samemu zachować równowagę, aby proste dopasowanie słownika nie było jedyną cechą klasy dodatniej (a co ważniejsze, gazetteer powinien pasują nie tylko pozytywne przykłady, ale także negatywne).
Załóżmy na przykład, że masz pełny zestaw nieskończonych odmian wszystkich nazwisk osób, co powoduje, że ogólna osoba NER nie ma znaczenia, ale teraz próbujesz zdecydować, czy obiekt wspomniany w tekście jest zdolny do śpiewania. Będziesz polegał na funkcjach włączenia do swojego Gazetera Person, co da ci wiele fałszywych wyników pozytywnych; następnie dodasz funkcję „ Jest przedmiotem czasownika śpiewać ”, a to prawdopodobnie dałoby fałszywe pozytywy z wszelkiego rodzaju przedmiotów, takich jak ptaki, twój brzuch, gdy jesteś głodny, i pijany facet, który myśliumie śpiewać (ale bądźmy szczerzy, nie może) - ale ta funkcja czasownika będzie się równoważyła z twoim dziennikiem, aby przypisać pozytywną klasę „Singera” osobom, a nie zwierzętom lub innym przedmiotom. Nie rozwiązuje to jednak sprawy pijanego wykonawcy.