Главная arrow книги arrow Копия Глава 23. arrow Информационный поиск
Информационный поиск

Преимуществом сглаженной модели является то, что она менее восприимчива к шуму и позволяет присвоить ненулевую вероятность релевантности документу, не содержащему все слова запроса. А преимуществом несглаженной модели является то, что она позволяет проще выполнить вычисления применительно к коллекциям с многочисленными документами, поскольку после создания индекса, где указано, в каких документах упоминается каждое слово, появляется возможность быстро формировать результирующий набор путем применения операции пересечения к этим спискам, после чего остается вычислить только для документов, входящих в полученное пересечение, а не для каждого документа.

Таблица 23.1. Вероятностная модель информационного поиска для запроса [Bayes information retrieval model], применяемого к коллекции документов, состоящей из пяти глав оригинала настоящей книги. В этой таблице указано количество слов, относящееся к каждой паре "документ-слово", и общее количество слов N для каждого документа. Используются две модели документа (— это несглаженная модель однословных сочетаний для i-ro документа;— та же модель со сглаживанием путем добавления единицы) и вычисляется вероятность запроса применительно к каждому документу для обеих моделей. Очевидно, что текущая глава (глава 23) имеет наивысшие показатели при использовании любой модели, поскольку в ней появление искомых слов имеет в 200 раз более высокую вероятность по сравнению с любой другой главой