Mając wiele dokumentów tekstowych (w języku naturalnym, nieuporządkowanym), jakie są możliwe sposoby przypisywania im niektórych semantycznych metadanych? Rozważmy na przykład krótki dokument:
I saw the company's manager last day.
Aby móc z niej wyodrębnić informacje, muszą być opatrzone adnotacjami dodatkowymi danymi, aby były mniej niejednoznaczne. Proces wyszukiwania takich metadanych nie jest kwestionowany, więc załóżmy, że odbywa się to ręcznie. Pytanie brzmi: w jaki sposób przechowywać te dane w taki sposób, aby można było przeprowadzić ich dalszą analizę wygodniej / wydajniej?
Możliwym podejściem jest użycie znaczników XML (patrz poniżej), ale wydaje się to zbyt szczegółowe i być może istnieją lepsze podejścia / wytyczne dotyczące przechowywania takich metadanych w dokumentach tekstowych.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.