Главная arrow книги arrow Копия Глава 23. arrow Статистический машинный перевод
Статистический машинный перевод

В последней части этой модели перевода предусмотрена перестановка слов в правильные позиции. Такая перестановка осуществляется с помощью модели смещений, в которой указано, как следует перемещать слова из их первоначальных позиций в окончательные позиции. Например, при переводе "chien brim" как "brown dog" слово "brown" получает смещение +1 (оно сдвигается на одну позицию вправо), а слово "dog" получает смещение -1. На первый взгляд может показаться, что смещение должно быть зависимым от слова, например, такие прилагательные, как "brown", как правило, должны иметь положительное смещение, поскольку во французском языке прилагательные обычно стоят после существительных. Но разработчики модели IBM Model 3 решили, что для реализации подхода, в котором смещения зависят от слова, потребуется слишком много параметров, поэтому смещение должно быть независимым от слова и зависимым только от положения внутри предложения, а также от длины предложений на обоих языках. Это означает, что в этой модели осуществляется оценка следующих параметров:

P(Offset=o| Position=p, EngLen-m, FrLen=n)

Таким образом, для определения смещения слова "brown" в выражении "brown dog" с помощью базы данных определяется значение P(Offset 11,2,2), что может, например, привести к получению значения +1 с вероятностью 0,3 и 0 с вероятностью 0,7. Но такая модель смещений кажется еще более сомнительной, особенно тем, кто, например, пытался составить надпись из букв с магнитами на своем холодильнике и понял, что это намного сложнее, чем высказать то же самое с помощью обычной речи. Вскоре будет показано, что такое решение было принято разработчиками не потому, что оно основано на качественной модели языка, а в связи с тем, что обеспечивает эффективное использование имеющихся данных. Так или иначе модель смещения наглядно показывает, что модель перевода среднего качества может быть значительно улучшена с помощью высококачественной языковой модели для французского языка. Ниже приведен пример, показывающий все этапы перевода одного предложения.

Теперь нам известно, как рассчитать вероятность P(F\E) для любой пары предложений (французский, английский). Но в действительности перед нами стоит задача, получив некоторое английское предложение, найти французское предложение, которое максимизирует эту вероятность. Для этого недостаточно просто перебирать предложения, поскольку если предположить, что количество слов во французском языке равно, то существуетпредложений длины л, а также много вариантов каждого из этих предложений. И даже если будут рассматриваться только 10 наиболее часто встречающихся вариантов дословного перевода для каждого слова и учитываться лишь смещения 0 или ±1, все равно будет получено околопредложений, а это означает, что может быть выполнен их полный перевод при n=5, но не при n=10. Поэтому вместо перебора необходимо осуществлять поиск наилучшего решения. Практика показала, что эффективным является поиск на основе алгоритма А*; см. [545].