Главная arrow книги arrow Копия Глава 23. arrow Определение с помощью обучения структуры правил для грамматики PCFG
Определение с помощью обучения структуры правил для грамматики PCFG

Теперь предположим, что структура грамматических правил неизвестна. В таком случае сразу же возникает проблема, связанная с тем, что пространство возможных множеств правил является бесконечным, поэтому неизвестно, какое количество правил необходимо предусмотреть и какую длину должно иметь каждое правило. Один из способов решения этой проблемы состоит в том, чтобы организовать составление грамматики с помощью обучения в нормальной форме Хомского; это означает, что каждое правило должно находиться в одной из следующих двух форм:

где X, Y и Z — нетерминальные символы; t — терминальный символ. В виде грамматики в нормальной форме Хомского, которая распознает точно такой же язык, может быть представлена любая контекстно-свободная грамматика. В таком случае появляется возможность принять произвольное ограничение, согласно которому количество нетерминальных символов будет равно п, и тем самым будет получено правил, где ν— количество терминальных символов. Но практика показала, что такой подход является эффективным только применительно к небольшим грамматикам. Предложен также альтернативный подход, называемый слиянием байесовских моделей, аналогичный подходу с применением модели Sequitur (раздел 22.8). В этом подходе предусматривается формирование на первом этапе локальных моделей (грамматик) для каждого предложения, а затем использование минимальной длины описания для слияния моделей.