Главная arrow книги arrow Копия Глава 23. arrow Вероятностные языковые модели
Вероятностные языковые модели

В главе 22 описана логическая модель языка; в ней для определения того, относится или не относится к некоторому языку данная строка, использовались грамматики CFG и DCG, а в данном разделе представлено несколько вероятностных моделей. Вероятностные модели имеют целый ряд преимуществ. Обучение этих моделей по имеющимся данным осуществляется очень просто: обучение сводится лишь к подсчету количества вариантов (с учетом определенных допусков на то, что из-за малого размера выборки могут возникать ошибки). Кроме того, эти модели являются более надежными (поскольку они способны принять любую строку, хотя и с низкой вероятностью); они отражают тот факт, что не все 100% говорящих на определенном языке согласны с тем, какие предложения фактически входят в состав языка; кроме того, такие модели могут использоваться для устранения неоднозначности, поскольку для выбора наиболее подходящей интерпретации могут применяться вероятностные законы.

Вероятностная языковая модель позволяет определить распределение вероятностей множества строк (которое может быть бесконечно большим). К примерам таких моделей, которые уже рассматривались в данной книге, относятся двух-и трехсловные языковые модели (или модели двух- и трехсловных сочетаний), применявшиеся при распознавании речи (раздел 15.6). В однословной модели (или модели однословных сочетаний) каждому слову в словаре присваивается вероятность P(w). В этой модели предполагается, что слова выбираются независимо, поэтому вероятность строки представляет собой произведение вероятностей входящих в нее слов и определяется выражением

Ниже приведена последовательность из 20 слов, которая была сформирована случайным образом из слов в оригинале данной книги с помощью однословной модели.

logical are as are confusion a may right tries agent goal the was diesel more object then information-gathering search is

В двухсловной модели каждому слову присваивается вероятность с учетом предыдущего слова. Часть данных о вероятностях таких двухсловных сочетаний приведена в табл. 15.2. Приведенная ниже случайная последовательность слов сформирована с помощью модели двухсловных сочетаний по материалам оригинала данной книги.