Главная arrow книги arrow Копия Глава 23. arrow Библиографические и исторические заметки
Библиографические и исторические заметки

В 1930-м году Петр Троянский (Petr Troyanskii) подал заявку на патент, в котором была сформулирована идея "машины перевода", но в то время еще не существовали компьютеры, позволяющие реализовать эту идею. В марте 1947 года Уоррен Вивер (Warren Weaver), сотрудник Фонда Рокфеллера, написал Норберту Винеру письмо, в котором указал, что решение задачи машинного перевода вполне возможно. Опираясь на работы в области криптографии и теории информации, Вивер писал: "Когда я рассматриваю статью, написанную на русском языке, я говорю себе: «Она фактически написана на английском языке, но закодирована странными символами. Теперь я приступаю к ее декодированию»". В течение следующего десятилетия все сообщество специалистов в этой области предпринимало упорные попытки декодирования текстов на иностранном языке таким способом. Компания IBM продемонстрировала соответствующую зачаточную систему в 1954 году. Энтузиазм, характерный для этого периода, показан в [69] и [942]. Последующее разочарование в возможностях машинного перевода описано Линдсеем [935], указавшим также на некоторые препятствия, связанные с необходимостью обеспечения взаимодействия синтаксиса и семантики, а также с потребностью в наличии знаний о мире, с которыми сталкивается машинный перевод. Правительство США выразило недовольство полным отсутствием прогресса в этой области и сформулировало свое заключение в одном из отчетов, который известен как отчет ALPAC [21]: "Нет ни ближайших, ни обозримых перспектив создания практически применимых систем машинного перевода". Однако работы в ограниченном объеме продолжались, и в ВВС США в 1970 году была развернута система Systran, которая была взята на вооружение Европейским экономическим сообществом в 1976 году. В том же 1976 году была развернута система перевода сообщений о погоде Taum-Meteo [1255]. К началу 1980-х годов возможности компьютеров возросли до такой степени, что выводы отчета ALPAC потеряли свою актуальность. В [1548] приведены сведения о некоторых новейших приложениях машинного перевода, основанных на системе Wordnet. Учебное введение в эту область приведено в [710].

Первые предложения по использованию статистического машинного перевода были сделаны в заметках Уоррена Вивера, опубликованных в 1947 году, но возможность практического применения этих методов появилась только в 1980-х годах. Описание этой тематики, приведенное в данной главе, основано на работе Брауна и его коллег из компании IBM [195], [196]. Эти труды весьма насыщены математической символикой, поэтому прилагаемый к ним учебник Кевина Найта [806] воспринимается как глоток свежего воздуха. В более современных исследованиях по статистическому машинному переводу наблюдается отказ от модели двухсловных сочетаний в пользу моделей, которые включают некоторые синтаксические конструкции [1627]. Первые работы в области сегментации предложений были выполнены Пал-мером и Херстом [1166]. Задача выравнивания двуязычных предложений рассматривается в [1042].

Есть две превосходные книги по вероятностной обработке лингвистической информации: книга [235] является краткой и точной, а книга [980] — всеобъемлющей и современной. С состоянием работ по созданию практических методов обработки лингвистической информации можно ознакомиться по материалам проводимой один раз в два года конференции Applied Natural Language Processing (ANLP) и конференции Empirical Methods in Natural Language Processing (EMNLP), а также по публикациям в журнале Natural Language Engineering. Организация SIGIR финансирует выпуск информационного бюллетеня и проведение ежегодной конференции по информационному поиску.