Главная arrow книги arrow Копия Глава 23. arrow Информационный поиск
Информационный поиск

Первый коэффициент, , представляет собой вероятность запроса с учетом релевантного документа. Для оценки этой вероятности необходимо выбрать языковую модель, описывающую то, как связаны запросы с релевантными документами. Один из широко распространенных подходов состоит в том, что документы представляются с помощью модели однословных сочетаний. В проблематике информационного поиска она известна также под названием модели мультимножества слов, поскольку в ней учитывается только частота появления каждого слова в документе, а не их порядок. При использовании такой модели следующие (очень короткие) примеры документов рассматриваются как идентичные: "man bites dog" (человек кусает собаку) и "dog bites man" (собака кусает человека). Очевидно, что эти документы имеют разный смысл, но верно также то, что оба они являются релевантными по отношению к запросам о собаках и укусах. Теперь, чтобы рассчитать вероятность запроса при наличии релевантного документа, достаточно просто перемножить вероятности слов в запросе, руководствуясь моделью однословных сочетаний данного документа. В этом и состоит наивная байесовская модель данного запроса. Используядля обозначения j-ro слова в запросе, получим следующее:

Это соотношение позволяет ввести такое упрощение:

Наконец, мы получили возможность применить эти математические модели к некоторому примеру. В табл. 23.1 приведены статистические данные по количеству однословных сочетаний применительно к словам в запросе [Bayes information retrieval model], выполняемом на коллекции документов, состоящей из пяти отдельных глав оригинала настоящей книги. Предполагается, что эти главы имеют одинаковое качество, поэтому требуется лишь вычислить вероятность запроса применительно к данному документу, для каждого документа. Такая процедура выполнена дважды, причем в первый раз использовалось выражение оценки несглажен-ного максимального правдоподобия, а во второй раз — модель со сглаживанием путем добавления единицы. Можно было бы предположить, что текущая глава должна получить наивысший ранг применительно к этому запросу, и в действительности были получены такие данные при использовании в каждой модели.