Главная arrow книги arrow Копия Глава 23. arrow Извлечение информации
Извлечение информации

Таблица 23.3. Примеры применения регулярных выражений

Системы извлечения информации на основе атрибутов могут быть созданы в виде ряда регулярных выражений, по одному для каждого атрибута. Если регулярное выражение согласуется с текстом один и только один раз, то существует возможность извлечь часть текста, определяющую значение соответствующего атрибута. Если соответствия не найдены, то больше ничего нельзя сделать, а если регулярное выражение согласуется с текстом в нескольких местах, то нужно применить процесс осуществления выбора между этими согласованиями. Одна из возможных стратегий состоит в том, чтобы для каждого атрибута было предусмотрено несколько регулярных выражений, упорядоченных по приоритетам. Поэтому, например, регулярное выражение с наивысшим приоритетом для выделения цены может предусматривать применение строки "our price: ", за которой сразу же следует знак доллара "$"; если же эта строка не будет обнаружена, можно сразу же перейти к использованию менее надежного регулярного выражения. Еще одна стратегия состоит в том, чтобы найти все согласования и применить определенный способ выбора между ними. Например, можно взять самую низкую цену, которая находится в пределах 50% от самой высокой цены. Это позволить обрабатывать тексты, подобные следующему: "List price $99.00, special sale price $78.00, shipping $3.00".

На более высоком этапе развития по сравнению с системами извлечения информации на основе атрибутов находятся системы извлечения информации на основе отношений, или реляционные системы, которые позволяют учитывать наличие в тексте информации о более чем одном объекте и отношениях между ними. Таким образом, при обнаружении такими системами текста "$249.99" они должны определить не только цену, но и объект, имеющий эту цену. Типичной системой извлечения информации на основе отношений является система FASTUS, которая применяется для обработки новостных сообщений о корпоративных слияниях и приобретениях. Эта система способна прочитать следующее сообщение:

Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.

и сформировать примерно такую запись базы данных: