Главная arrow книги arrow Копия Глава 15. Вероятностные рассуждения во време arrow Библиографические и исторические заметки
Библиографические и исторические заметки

Другие методы для аппроксимированной фильтрации включают алгоритм вырожденной модели МСМС [991] и метод факторизованной аппроксимации [164]. Оба метода обладают тем важным свойством, что ошибка аппроксимации не расходится во времени. Кроме того, для временных моделей были разработаны вариационные методы (см. главу 14). В [547] обсуждается алгоритм аппроксимации для факторной модели НММ — сети DBN, в которой две или несколько независимо развивающихся марковских цепей связаны с помощью разделяемого потока наблюдений. В [747] рассматривается целый ряд других приложений. Свойства продолжительностей смешивания обсуждаются в [959] и [1164].

Предыстория систем распознавания речи началась в 1920-х годах с создания игрушки Radio Rex— игрушечной собачки, активизируемой голосом. Собачка Rex прыгала в ответ на звуковые частоты около 500 Гц, которые соответствуют звучанию гласной [eh] в слове "Rex!". Немного более серьезная работа в этой области началась после Второй мировой войны. В ATT Bell Labs была создана система для распознавания отдельно произносимых цифр [333] с помощью простого согласования акустических характеристик с шаблонами. Вероятности перехода между фонемами впервые использовались в системе, созданной в лондонском University College Фра-ем [508] и Денесом [384]. Начиная с 1971 года Агентство перспективных исследовательских программ (Defense Advanced Research Projects Agency— DARPA) Министерства обороны США финансировало четыре конкурирующих пятилетних проекта по разработке систем распознавания речи с высокой эффективностью. Победителем этого соревнования и единственной системой, соответствующей требованиям по распознаванию словаря из 1000 слов с точностью 90%, стала система Harpy, разработанная в университете CMU [952], [953]. Окончательная версия системы Harpy была создана на основе системы Dragon, разработанной аспирантом CMU Джеймсом Бейкером [62]; в системе Dragon впервые использовались скрытые марковские модели для распознавания речи. Почти одновременно с этим в компании IBM была разработана еще одна система на основе модели НММ [730]. Начиная с этого времени вероятностные методы в целом и скрытые марковские модели в частности стали доминировать в исследованиях и разработках по распознаванию речи. Последние годы характеризуются постепенным прогрессом, применением все более крупных наборов данных и моделей, а также ужесточением конкуренции в области решения все более реалистичных речевых задач. Некоторые исследователи изучали возможность использования сетей DBN вместо моделей НММ для распознавания речи с целью применения большей выразительной мощи сетей DBN для более полного охвата сложного скрытого состояния речевого аппарата [1286], [1652].

По проблематике распознавания речи имеется несколько хороших учебников: [568], [699], [731], [1263]. В [1550] собраны важные статьи в этой области, включая некоторые учебные руководства. Материал, представленный в данной главе, основан на обзоре, приведенном в [781], и на учебнике [756]. Результаты исследований в области распознавания речи публикуются в журналах Computer Speech and Language, Speech Communications и IEEE Transactions on Acoustics, Speech, and Signal Processing, в сборнике материалов семинаров DARPA Workshops on Speech and Natural Language Processing, а также в трудах конференций Eurospeech, ICSLP и ASRU.