Главная arrow книги arrow Копия Глава 23. arrow Статистический машинный перевод
Статистический машинный перевод

При любом обоснованном подборе вариантов значений вероятностей выражение "the dog" (собака) будет служить наиболее правдоподобным переводом выражения "1е chien". Но в большинстве случаев прямолинейные попытки применения этой модели оканчиваются неудачей. Одна из проблема связана с порядком слов. Английское слово "dog" соответствует французскому слову "chien", а понятие, обозначаемое в английском языке словом "brown" (коричневый), во французском языке обозначается словом "brun". Однако словосочетание "brown dog" переводится как "chien brim". Еще одна проблема состоит в том, что словесные обороты не связаны друг с другом в форме взаимно однозначного соответствия. Английское слово "home" часто переводят с помощью выражения "a la maison", поэтому имеет место соответствие "один к трем" (или три к одному, при противоположном направлении перевода). Невзирая на наличие указанных проблем, разработчики модели IBM Model 3 приняли за основу жесткий подход, по сути базирующийся на модели однословных сочетаний, но ввели несколько дополнений для компенсации ее недостатков.

Для того чтобы можно было учесть тот факт, что некоторые слова не допускают перевода один к одному, в эту модель было введено понятие фертильности (fertility — плодовитость) слова. Слово с фертильностью п копируется п раз, после чего каждая из этих п копий переводится независимо. Модель содержит параметры, которые показывают значение P{Fertility=n| word) для каждого французского слова. Для перевода выражения "a la maison" как выражения "home" в этой модели необходимо выбрать фертильность 0 для "а" и "1а" и фертильность 1 для "maison", а затем применить модель перевода однословных сочетаний, чтобы перевести "maison" как "home". Такой подход кажется достаточно приемлемым, поскольку "а" и "1а", будучи словами с низким информационным содержанием, могут быть на полном основании заменены в процессе перевода пустой строкой. Но применение такого метода для перевода в другом направлении становится более сомнительным. Слову "home" должна быть назначена фертильность 3, что приведет к его преобразованию в "home home home". Тогда первое слово "home" должно быть переведено как "а", второе как "1а" и третье как "maison". Но с точки зрения этой модели перевода выражение "a la maison" должно иметь точно такую же вероятность, как "maison la а" (в этом и состоит та часть данного подхода, которая может быть поставлена под сомнение.) Дело в том, что выбор того или иного варианта должен осуществляться на уровне языковой модели. Может показаться, что было бы более целесообразным применение непосредственного перевода слова "home" как выражения "a la maison" вместо использования косвенного варианта с преобразованием в "home home home", но для этого потребовалось бы больше параметров и их было бы труднее получить из доступной совокупности текстов.