Związek i różnica między wyszukiwaniem a pozyskiwaniem informacji?


11

Z Wikipedii

Wyszukiwanie informacji to czynność polegająca na uzyskiwaniu zasobów informacyjnych odpowiednich do potrzeb informacyjnych z kolekcji zasobów informacyjnych. Wyszukiwanie może opierać się na metadanych lub indeksowaniu pełnotekstowym.

Z Wikipedii

Ekstrakcja informacji (IE) to zadanie automatycznego wydobywania uporządkowanych informacji z nieustrukturyzowanych i / lub częściowo ustrukturyzowanych dokumentów do odczytu maszynowego. W większości przypadków działalność ta dotyczy przetwarzania tekstów w języku ludzkim za pomocą przetwarzania języka naturalnego (NLP). Ostatnie działania związane z przetwarzaniem dokumentów multimedialnych, takie jak automatyczne adnotacje i ekstrakcja treści z obrazów / audio / wideo, można uznać za ekstrakcję informacji.

Jakie są relacje i różnice między wyszukiwaniem a pozyskiwaniem informacji?

Dzięki!

Odpowiedzi:


9

Wyszukiwanie informacji odbywa się na podstawie zapytania - określasz potrzebne informacje, które są zwracane w zrozumiałej dla człowieka formie.

Ekstrakcja informacji dotyczy strukturyzacji nieustrukturyzowanych informacji - biorąc pod uwagę niektóre źródła, wszystkie (istotne) informacje są ustrukturyzowane w formie, która będzie łatwa do przetworzenia. Nie będzie to konieczne w zrozumiałej dla człowieka formie - może to dotyczyć wyłącznie programów komputerowych.

Niektóre źródła:


7

http://gate.ac.uk/ie/ daje bardzo ładne, zwięzłe rozróżnienie:

Ekstrakcja informacji nie jest odzyskiwaniem informacji: Ekstrakcja informacji różni się od tradycyjnych technik tym, że nie odzyskuje z kolekcji podzbioru dokumentów, które, mam nadzieję, są istotne dla zapytania, w oparciu o wyszukiwanie słów kluczowych (być może uzupełnione przez tezaurus). Zamiast tego celem jest wyodrębnienie z dokumentów (które mogą być w różnych językach) istotnych faktów na temat określonych rodzajów zdarzeń, podmiotów lub relacji. Fakty te są następnie zazwyczaj automatycznie wprowadzane do bazy danych, która może być następnie wykorzystana do analizy danych pod kątem trendów, w celu uzyskania streszczenia w języku naturalnym lub po prostu w celu umożliwienia dostępu on-line.

Mówiąc obrazowo:

Wyszukiwanie informacji otrzymuje zestawy odpowiednich dokumentów:

wprowadź opis zdjęcia tutaj

Ekstrakcja informacji pozwala uzyskać fakty z dokumentów:

wprowadź opis zdjęcia tutaj


2

Z punktu widzenia modelowania wyszukiwanie informacji jest głębokim polem opartym na kilku dyscyplinach, w tym statystyce, matematyce, językoznawstwie, sztucznej inteligencji, a teraz na danych. W praktyce modele te są stosowane wobec tekstu w korpusach w celu wykrycia wzorców w danych. Nie tylko modele IR nakładają się na siebie, ale mogą „współpracować” z innymi modelami, takimi jak k-średnie lub k-najbliższe modele sąsiadów, ale inne modele mogą być stosowane z punktu widzenia lingwistyki obliczeniowej, takiej jak LDA / LDI i modelowanie tematów Następnie gra końcowa jest pewnego rodzaju wizualizacją informacji o tym odkryciu - po rankingowaniu, grupowaniu i agregowaniu prac. Wyszukiwanie informacji może wydawać się tajemniczą dyscypliną, ale poważnym wysiłkiem, co jest bardzo cenione, otwiera obszar do głębszego zrozumienia każdego modelu i interakcji między modelami. Przytaczam serię „Synteza wykładów na temat pojęć informacyjnych, wyszukiwania i usług” jako najlepsze miejsce do zagłębiania się w podstawy IR.

Chociaż nie do końca oddzielam IR i ekstrakcję informacji, być może podzbiór IE, ekstrakcja na poziomie koncepcji, stosuje wzorce IR wraz z regułami wnioskowania opartymi na sztucznej inteligencji w celu wydobycia powiązanych ontologii. Graficzny charakter tych relacji został wzmocniony dzięki modelowaniu ontologicznemu w OWL i RDF oraz bazom danych grafowych, które pozwalają na mniej rygorystyczny lub rygorystyczny zestaw modelowania relacji i pozwalają na większą liczbę relacji na powierzchni, niż kontrolę nad nimi. Zdolność do dynamicznego pozyskiwania informacji sprawia, że ​​jej „dyscyplina” jest bardzo interesująca dla badaczy.

Zarówno IR, jak i IE rozgrywają się w naszych znaczących „bytach chwili” - niektórzy nazywają „dynamiczne ontologie” - niektórzy to Palantir - potrzebujemy wzorów, modeli, symulacji i wizualizacji tych znaczących bytów, aby prowadzić działalność oblicze przekształcania nowych źródeł informacji i zmiany istniejących informacji. Modelowanie koncepcyjne, relacyjne, definicyjne, modelowe i ontologiczne musi być elastyczne, a ich wizualizacje takie same. Ciężkie podnoszenie silników AI, takich jak Watson, w polu pozyskiwania informacji i wnioskowania, rzuciło światło na IE i pola IR. Również wszechobecność przetwarzania języka naturalnego i uczenia maszynowego zwraca uwagę na modele i silniki IR i IE. Wpływ modeli IR na wyszukiwanie i SEO oraz na semantyczne modelowanie sieci jest jednym z tych „


1

Wyszukiwanie informacji polega na zwróceniu informacji istotnych dla określonego zapytania lub pola zainteresowania. Należy pamiętać, że informacje te mogą również mieć formę dokumentów ogólnych, na pewno wystarczająca liczba wyszukiwarek jest godnym uwagi przykładem takiego zadania. Powiedziałbym, że najważniejszymi jednostkami rozpoznawalnymi do wyszukiwania informacji są początkowy zestaw dokumentów / informacji oraz zapytanie, które określają „czego szukać”.

Z drugiej strony ekstrakcja informacji polega bardziej na wydobywaniu (lub wywodzeniu) ogólnej wiedzy (lub relacji) z zestawu dokumentów lub informacji. Zauważ, że tutaj cała treść dokumentów może być traktowana jako cały zbiór danych, z których można wyciągnąć wiedzę. Oczywiście również w tym przypadku możesz w jakiś sposób określić, co chcesz wyodrębnić, ale chodzi o więcej właściwości / relacji niż określonych tematów / tematów. Właściwości są bardziej specyficzne dla domeny, podczas gdy ogólnie relacje obejmują bardziej ogólne scenariusze.

Ponownie, w wyszukiwarkach prosisz o witryny, które najprawdopodobniej zawierają informacje na ten temat. To jest przykład wyszukiwania informacji .

Do ekstrakcji informacji możesz na przykład poprosić o wyodrębnienie wszystkich nazw miast lub adresów e-mail, które pojawiają się w zbiorze dokumentów. Możesz nawet pójść o wiele bardziej ogólny, prosząc po prostu o wydobycie wiedzy. Jak widać, jest to naprawdę ogólne, ale można to osiągnąć na przykład poprzez uzyskanie trojaczków podmiot-akcja-obiekt dla każdego ważnego zdania tekstu (najlepiej nadaje się do tekstów w języku naturalnym).

Jeśli jesteś zainteresowany, te (i inne) tematy zostały szczegółowo wyjaśnione w rozdziale Przetwarzanie języka naturalnego w książce Arti ficial Intelligence: A Modern Approach .

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.