Главная arrow книги arrow Копия Глава 23. arrow Вероятностные языковые модели
Вероятностные языковые модели

Еще один подход состоит в использовании метода сглаживания с линейной интерполяцией, в котором предусматривается объединение моделей трех-, двух- и однословных сочетаний с помощью линейной интерполяции. Оценка вероятности определяется по следующей формуле, с учетом того, что:

Параметрымогут быть заранее заданными или полученными путем обучения по алгоритму ЕМ. Существует возможность применения значений, независимых от количества n-словных сочетаний, с тем, чтобы можно было присвоить больший вес оценкам вероятностей, полученным на основании больших значений количества.

Один из методов оценки языковой модели состоит в следующем. Вначале текстовая совокупность разделяется на обучающую совокупность и контрольную совокупность. Затем определяются параметры модели с помощью обучающих данных. После этого выполняется расчет вероятности, присвоенной контрольной совокупности с помощью данной модели; чем выше эта вероятность, тем лучше. Одним из недостатков этого подхода является то, что вероятность Ρ (words) при наличии длинных строк становится весьма небольшой; такие малые числовые значения могут вызвать антипереполнение в арифметике с плавающей точкой или просто стать неудобными для чтения. Поэтому вместо вероятности может быть вычислен показатель связности (perplexity) модели на контрольной строке слов words следующим образом:

где N— количество слов words. Чем ниже показатель связности, тем лучше модель. Модель n-словных сочетаний, которая присваивает каждому слову вероятность 1/к, имеет показатель связности k; показатель связности может рассматриваться как средний коэффициент ветвления.

В качестве примера того, для чего может использоваться модель n-словных сочетаний, рассмотрим задачу сегментации — поиска границ между словами в тексте без пробелов. Решением этой задачи обычно приходится заниматься при обработке текстов на японском и китайском языках, в которых отсутствуют пробелы между словами, но авторы полагают, что для большинства читателей более удобным будет пример из английского. Приведенное ниже предложение действительно несложно прочитать любому, кто знает английский язык.

Itiseasytoreadwordswithoutspaces