Главная arrow книги arrow Копия Глава 23. arrow Совершенствование информационного поиска
Совершенствование информационного поиска

В модели однословных сочетаний все слова рассматриваются как полностью независимые, но носителям языка известно, что некоторые слова обладают определенными связями, например, слово "couch" (кушетка) тесно связано со словами "couches" и "sofa". Во многих системах информационного поиска предпринимаются попытки учитывать подобные корреляции.

Например, если запрос сформулирован как [couch], то исключение из результирующего набора таких документов, в которых упоминаются слова "COUCH" или "couches", но не "couch", было бы неправильным. В большинстве систем информационного поиска используются средства приведения к нижнему регистру, с помощью которых слово "COUCH" преобразуется в "couch", а во многих дополнительно применяется алгоритм выделения основы, позволяющий преобразовать слово "couches" в основную форму "couch". Применение указанных средств обычно позволяет добиться небольшого увеличения полноты выборки (для английского языка такое увеличение составляет порядка 2%). Но использование таких средств может привести к снижению точности. Например, после преобразования слова "stocking" в "stock" с помощью выделения основы обычно снижается точность применительно к запросам, относящимся либо к чулочно-носочным изделиям, либо к финансовым инструментам, хотя и может увеличить полноту выборки применительно к запросам о ведении домашнего хозяйства. Алгоритмы выделения основы, действующие с помощью фиксированных правил (например, правил, предусматривающих удаление суффикса "-ing"), не позволяют предотвратить возникновение этой проблемы, но новейшие алгоритмы, действующие на базе словаря (в которых суффикс "-ing" не удаляется, если слово с этим суффиксом имеется в словаре), позволяют решить эту проблему. Применение средств выделения основы в английском языке не позволяет добиться существенных результатов, но играет более важную роль в других языках. Например, в тексте на немецком языке нередко можно встретить слова наподобие "Lebensversicherungsgesellschaftsangestellter" (служащий компании страхования жизни). В таких языках, как финский, турецкий, инупик и юпик, имеются рекурсивные морфологические правила, которые позволяют в принципе составлять слова неограниченной длины.