Главная arrow книги arrow Копия Глава 23. arrow Информационный поиск
Информационный поиск

Информационный поиск — это задача поиска документов, отвечающих потребностям пользователя в информации. Наиболее широко известными примерами систем информационного поиска являются поисковые машины World Wide Web. Пользователь Web может ввести в приглашении поисковой машины такой запрос, как [ AI book], и получить список подходящих страниц. В данном разделе показано, как создаются подобные системы. Для систем информационного поиска (называемых сокращенно системами ИП) применяются перечисленные ниже характеристики.

1.    Определение коллекции документов. В каждой системе должно быть принято определенное решение о том, что рассматривается в ней как документ — отдельный абзац, страница или многостраничный текст.

2.    Способ формулировки запроса на ^языке запросов. Запрос указывает, какая информация требуется пользователю*. Язык запросов может предусматривать лишь возможность составления списка слов, такого как [AI book], или может позволять задавать сочетание слов, которые должны быть расположены близко друг от друга, как в запросе [ "AI book" ]; он может содержать логические операторы, как в запросе [AI AND book]; а также включать операторы, отличные от логических, как в запросе [AI NEAR book] или [ΑΙ book SITE:www.aaai.org].

3.    Результирующий набор. Таковым является подмножество документов, которые система информационного поиска определяет как релевантные данному запросу. Под словом релевантный подразумевается вероятно полезный (согласно конкретным информационным потребностям, сформулированным в запросе) для того лица, которое сформулировало запрос.

4.    Способ представления результирующего набора. Он может быть настолько простым, как ранжированный список названий документов, или настолько сложным, как вращающаяся цветная карта результирующего набора, спроектированная на трехмерное пространство.

После чтения предыдущей главы могло сложиться впечатление, что систему информационного поиска возможно создать, преобразовав с помощью синтаксического анализа коллекцию документов в базу знаний, состоящую из логических высказываний, после чего в ней будет выполняться синтаксический анализ каждого запроса и поиск ответа в базе знаний с помощью предиката Ask. Но, к сожалению, еще никому не удалось создать крупномасштабную систему информационного поиска таким образом. Дело в том, что составить словарь и грамматику, которые охватывают большую коллекцию документов, слишком сложно, поэтому во всех системах информационного поиска используются более простые языковые модели.