Главная arrow книги arrow Копия Глава 23. arrow Совершенствование информационного поиска
Совершенствование информационного поиска

Следующий этап состоит в том, что в системе предусматривается распознавание синонимов, например, таких, как "sofa" и "couch". Как и при использовании средств выделения основы, это позволяет добиться небольшого увеличения полноты выборки, но при непродуманном использовании этих средств возникает опасность снижения точности. Пользователи, желающие получить информацию о футболисте Тиме Коуче (Tim Couch), вряд ли хотели бы погрузиться в бесконечные объемы сведений о кушетках и диванах. Проблема состоит в том, что "языки не терпят абсолютной синонимии, так же как природа не терпит вакуума" [312]. Это означает, что при появлении в языке двух слов, соответствующих одному и тому же понятию, люди, говорящие на этом языке, совместными усилиями уточняют толкование таких слов для устранения путаницы.

Во многих системах информационного поиска в определенной степени используются двухсловные сочетания, но полная вероятностная модель двухсловных сочетаний реализована лишь в немногих системах. Кроме того, для исправления опечаток как в документах, так и в запросах могут использоваться процедуры коррекции орфографических ошибок.

В качестве последнего усовершенствования можно указать, что повышение качества функционирования системы информационного поиска достигается также с помощью использования метаданных — данных, внешних по отношению к тексту самого документа. К примерам таких данных относятся ключевые слова, подготовленные разработчиком документа, и гипертекстовые ссылки между документами.