Главная arrow книги arrow Копия Глава 23. arrow Информационный поиск
Информационный поиск

Существует несколько способов декомпозиции совместного распределения . В настоящей главе будет описан подход, известный под названием языкового моделирования, в котором предусматривается получение оценки языковой модели для каждого документа, а затем вычисление для каждого запроса вероятности этого запроса с учетом языковой модели документа. Используя г для обозначения выражения R=true, можно перезаписать приведенное выше определение вероятности следующим образом:

Как уже было сказано, может быть предпринята попытка максимизировать значение, но равным образом можно максимизировать отношение вероятностей. Это означает, что ранжирование документов может осуществляться на основе следующей оценки:

Преимущество такого подхода состоит в том, что из процедуры вычисления устраняется терм P{D,Q). Теперь примем предположение, что в случае нерелевантных документов каждый документ является независимым по отношению к запросу. Иными словами, если какой-то документ нерелевантен по отношению к запросу, то получение информации о существовании этого документа не позволит определить, в чем состоит сам запрос. Это предположение может быть выражено с помощью такой формулы:

На основании этого предположения получим следующее:

Коэффициент измеряет независимую от запроса вероятность того, что документ является релевантным. Таким образом, этот коэффициент представляет собой меру качества документа; некоторые документы с большей вероятностью будут релевантными по отношению к любому запросу, поскольку сами эти документы имеют изначально высокое качество. Применительно к статьям для академических журналов качество можно оценить на основании количества упоминаний об этих статьях в других источниках, а для оценки Web-страниц можно использовать количество гиперссылок на ту или иную страницу. В каждом из этих случаев можно присвоить больший вес адресатам ссылок, характеризующимся высоким качеством. Одним из факторов оценки релевантности документа, независимой от запроса, может также служить продолжительность существования этого документа.