Страница 2 из 2 Следующий этап состоит в том, что в системе предусматривается распознавание синонимов, например, таких, как "sofa" и "couch". Как и при использовании средств выделения основы, это позволяет добиться небольшого увеличения полноты выборки, но при непродуманном использовании этих средств возникает опасность снижения точности. Пользователи, желающие получить информацию о футболисте Тиме Коуче (Tim Couch), вряд ли хотели бы погрузиться в бесконечные объемы сведений о кушетках и диванах. Проблема состоит в том, что "языки не терпят абсолютной синонимии, так же как природа не терпит вакуума" [312]. Это означает, что при появлении в языке двух слов, соответствующих одному и тому же понятию, люди, говорящие на этом языке, совместными усилиями уточняют толкование таких слов для устранения путаницы. Во многих системах информационного поиска в определенной степени используются двухсловные сочетания, но полная вероятностная модель двухсловных сочетаний реализована лишь в немногих системах. Кроме того, для исправления опечаток как в документах, так и в запросах могут использоваться процедуры коррекции орфографических ошибок. В качестве последнего усовершенствования можно указать, что повышение качества функционирования системы информационного поиска достигается также с помощью использования метаданных — данных, внешних по отношению к тексту самого документа. К примерам таких данных относятся ключевые слова, подготовленные разработчиком документа, и гипертекстовые ссылки между документами.
<< В начало < Предыдущая 1 2 Следующая > В конец >> |