Главная arrow книги arrow Копия Глава 23. arrow Извлечение информации
Извлечение информации

Реляционные системы извлечения информации часто создаются на основе каскадных преобразователей с конечными автоматами. Это означает, что они состоят из ряда конечных автоматов (Finite-State Automaton — FSA), где каждый автомат принимает текст в качестве входных данных, преобразует этот текст в другой формат и передает его следующему автомату. Такой способ обработки является осуществимым, поскольку каждый конечный автомат действует достаточно эффективно, а при совместном использовании они приобретают способность извлекать необходимую информацию. Типичной системой такого типа является FASTUS, которая состоит из конечных автоматов, выполняющих описанные ниже пять этапов обработки.

1.    Разбиение на лексемы.

2.    Обработка сложных слов.

3.    Обработка базовых групп.

4.    Обработка сложных фраз.

5.    Слияние структур.

Первым этапом обработки системы FASTUS является разбиение на лексемы, в котором поток символов сегментируется на лексемы (слова, числа и знаки препинания). Применительно к тексту на английском языке разбиение на лексемы может быть выполнено довольно просто; для этого достаточно лишь следить за разделяющими символы пробелами или знаками препинания. А применительно к тексту на японском языке для разбиения на лексемы требуется вначале выполнить сегментацию, используя нечто вроде алгоритма сегментации Витерби (см. листинг 23.1). Некоторые средства разбиения на лексемы позволяют также обрабатывать такие языки разметки, как HTML, SGML и XML.

На втором этапе обрабатываются сложные слова, включая такие словосочетания, как "set up" (настройка) и "joint venture" (совместное предприятие), а также имена собственные, такие как "Prime Minister Tony Blair" и "Bridgestone Sports Co.". Сложные слова распознаются с использованием сочетания лексических элементов и грамматических правил конечного автомата. Например, название компании может быть распознано с помощью следующего правила:

Эти правила необходимо составлять с учетом всех предосторожностей и проверять на полноту и точность. Одна из коммерческих систем распознала словосочетание "Intel Chairman Andy Grove" (Председатель правления Intel Энди Гроув) как обозначение местности, а не имя лица, применив правило в следующей форме:

Capi talizedWord+ ("Grove" | "Forest" | "Village" |...)