Главная arrow книги arrow Копия Глава 23. arrow Определение с помощью обучения вероятностей для машинного перевода
Определение с помощью обучения вероятностей для машинного перевода

Выше была кратко описана модель для Ρ ( f| Ε), которая предусматривает применение четырех перечисленных ниже множеств параметров.

•    Языковая модель.

•    Модель фертильности.

•    Модель выбора слова.

•    Модель смещения.

Но даже при использовании скромного словаря, состоящего из 1000 слов, для этой модели требуются миллионы параметров. Очевидно, что необходимо обеспечить определение этих параметров с помощью обучения на основе данных. Предположим, что единственными доступными данными является двуязычная совокупность текстов. Ниже описан способ использования этих данных.

•    Сегментация на предложения. Единицей перевода является предложение, поэтому нам потребуется разбить совокупность текстов на предложения. Надежным показателем конца предложения является точка, но в таком фрагменте текста, как "Dr. J. R. Smith of Rodeo Dr. arrived.", признаком конца предложения является только последняя точка. Сегментация на предложения может быть выполнена с точностью около 98%.

•    Оценка языковой модели для французского языка. Рассматривая только французскую половину совокупности текстов, подсчитать частоты пар слов и выполнить выравнивание, чтобы получить оценку Например, может быть получено значение Ρ ("Eiffel" | "tour") = .02.

•    Выравнивание предложений. Для каждого предложения в английской версии определить, какое предложение (предложения) соответствует ему во французской версии. Обычно следующее предложение в английском тексте соответствует следующему предложению во французском тексте в форме согласования "один к одному", но иногда возникают другие варианты: одно предложение на одном из языков может быть разбито на два, что приводит к согласованию "два к одному", или может быть изменен на противоположный порядок следования двух предложений, а это приведет к согласованию "два к двум". Выравнивание предложений ("один к одному", "один к двум" или "два к двум" и т.д.) может быть обеспечено только на основании сравнения длины предложений с точностью в пределах от 90 до 99% с использованием одного из вариантов алгоритма сегментации Витерби (см. листинг 23.1). С применением отметок, общих для обоих языков, таких как числа или имена собственные, а также слов, которые, как известно, имеют в двуязычном словаре однозначный перевод, можно добиться еще лучшего выравнивания.