Главная arrow книги arrow Копия Глава 23. arrow Библиографические и исторические заметки
Библиографические и исторические заметки

В вероятностных контекстно-свободных грамматиках (Probabilistic Context-Free Grammar — PCFG) устранены все недостатки вероятностных моделей, отмеченные Хомским, и они показали свои преимущества над обычными контекстно-свободными грамматиками. Грамматики PCFG были исследованы Бутом [151] и Са-ломаа [1346]. В [729] представлен алгоритм декодирования стека, представляющий собой один из вариантов алгоритма поиска Витерби, который может использоваться для определения наиболее вероятной версии синтаксического анализа с помощью грамматики PCFG. В [63] представлен внешний—внутренний алгоритм, а в [889] описаны области его применения и ограничения. В [236] и [804] обсуждаются проблемы синтаксического анализа с помощью грамматик в виде банка деревьев.

В [1467] показано, как определять с помощью обучения грамматические правила на основе слияния байесовских моделей. Другие алгоритмы для грамматик PCFG представлены в [235] и [980]. В [282] приведен обзор результатов, полученных в этой области, и даны пояснения к одной из наиболее успешных программ статистического синтаксического анализа.

К сожалению, грамматики PCFG при выполнении самых различных задач показывают более низкую производительность по сравнению с простыми п-элементными моделями, поскольку грамматики PCFG не позволяют представить информацию, связанную с отдельными словами. Для устранения этого недостатка некоторые авторы [281], [237], [713] предложили варианты лексикализованных вероятностных грамматик, в которых совместно используются контекстно-свободные грамматики и статистические данные, касающиеся отдельных слов.

Первой попыткой собрать сбалансированную совокупность текстов для эмпирической лингвистики явилось создание коллекции Brown Corpus [493]. Эта совокупность состояла примерно из миллиона слов с отметками, обозначающими части речи. Первоначально эта коллекция хранилась на 100 тысячах перфокарт. Банк деревьев синтаксического анализа Пенна [982] представляет собой коллекцию, состоящую примерно из 1,6 миллиона слов текста, для которого вручную выполнен синтаксический анализ с преобразованием в деревья. Эта коллекция помещается на компакт-диске. В издании British National Corpus [905] данная коллекция была расширена до 100 миллионов слов. В World Wide Web хранится свыше триллиона слов больше чем на 10 миллионах серверов.