Главная arrow книги arrow Копия Глава 23. arrow Статистический машинный перевод
Статистический машинный перевод

В начале 1960-х годов широко распространилось мнение, что компьютеры вскоре смогут без особых проблем переводить с одного естественного языка на другой, в соответствии с тем, что в проекте Тьюринга удалось добиться успешного "перевода" закодированных сообщений на немецком языке в немецкий текст, доступный для восприятия. Но к 1966 году стало ясно, что для беглого перевода требуется понимание смысла сообщений, а для взлома кода — нет.

В последнее десятилетие наметилась тенденция к использованию систем машинного перевода, основанных на статистическом анализе. Безусловно, можно добиться выигрыша благодаря применению статистических данных и четкой вероятностной модели того, в чем состоит качественный анализ или передача текста, на любом из этапов, показанных на рис. 23.2. Но под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

Рис. 23.2. Схематическое изображение вариантов организации систем машинного перевода. Схема начинается с английского текста, показанного в левой нижней части. Система с промежуточным языком следует по сплошным линиям, выполняя синтаксический анализ английского текста и преобразуя его вначале в синтаксическую форму, затем в семантическую форму представления и в форму представления на промежуточном языке, после этого выполняет этапы преобразования в семантическую, синтаксическую и лексическую форму на французском языке. В системе на основе передачи в качестве сокращенных путей используются пунктирные линии. В различных системах передача осуществляется на разных уровнях, причем в некоторых системах она происходит одновременно на нескольких уровнях