Главная arrow книги arrow Копия Глава 23. arrow Извлечение информации
Извлечение информации

Извлечением информации называется процесс создания записей базы данных путем просмотра текста и выявления экземпляров конкретного класса объектов или событий, а также связей между этими объектами и событиями. Может быть предпринята попытка применить такой процесс для извлечения данных об адресах из Web-страниц и внесения в базу данных информации об улице, городе, штате и почтовом коде или извлечения сведений о происходящих штормах из сообщений о погоде и внесения в базу данных информации о температуре, скорости ветра и количестве осадков. Системы извлечения информации занимают промежуточное положение между системами информационного поиска и полными синтаксическими анализаторами текста, поскольку к ним предъявляются более высокие требования, чем просто преобразование документа в мультимножество слов, но меньшие требования по сравнению с полным анализом каждого предложения.

Простейшим типом системы извлечения информации является система, основанная на атрибутах, поскольку в ней предполагается, что весь текст относится к одному объекту и задача состоит в извлечении атрибутов этого объекта. Например, в разделе 10.5 упоминалась задача извлечения из текста "17in SXGA Monitor for only $249.99" отношений базы данных, определяемых следующим выражением:

Определенная часть этой информации может обрабатываться с помощью регулярных выражений, которые определяют регулярную грамматику, заданную на одной строке текста. Регулярные выражения используются в командах Unix, таких как grep, в языках программирования, таких как Perl, и в текстовых процессорах, таких как Microsoft Word. Подробные сведения о грамматике, применяемой в том или ином инструментальном средстве, в значительной степени различаются, поэтому их лучше всего узнать из соответствующего справочного руководства, но в табл. 23.3 показано, как сформировать регулярное выражение для выделения данных о ценах в долларах, и продемонстрировано применение общих подвыражений.