Главная arrow книги arrow Копия Глава 15. Вероятностные рассуждения во време arrow Разработка устройства распознавания речи
Разработка устройства распознавания речи

Но указанный подход может не получить широкого распространения по таким причинам: данные с метками, проставленными вручную, обходятся дорого и встречаются редко, причем может оказаться, что даже доступные наборы данных с метками, расставленными вручную, не соответствуют тем типам говорящих людей и тем акустическим условиям, которые обнаруживаются в новом контексте распознавания речи. К счастью, алгоритм ожидания-максимизации, или сокращенно алгоритм ЕМ (Expectation Maximization), позволяет изучать модели перехода и модели восприятия НММ без необходимости использования данных с метками. Оценки, полученные на основе данных с метками, расставленными вручную, могут использоваться для инициализации моделей; после этого управление берет на себя алгоритм ЕМ и обеспечивает обучение моделей, предназначенных для решения предъявленной задачи. Идея функционирования этого алгоритма является простой: если дана некоторая модель НММ и последовательность наблюдений, то можно использовать алгоритмы сглаживания, описанные в разделах 15.2 и 15.3, для вычисления вероятности каждого состояния на каждом временном интервале, а затем, с помощью несложного дополнения, использовать его для вычисления вероятности каждой пары "состояние—состояние" на последовательных временных интервалах. Эти вероятности могут рассматриваться как неопределенные метки. С помощью этих неопределенных меток можно оценить новые вероятности перехода и восприятия, после чего повторить процедуру применения алгоритма ЕМ. Такой метод гарантирует увеличение согласования между моделью и данными после каждой итерации и обычно сходится к гораздо более лучшему множеству значений параметров по сравнению с теми, которые были получены с помощью первоначальных оценок, сформированных по данным, размеченным вручную.

В современных системах распознавания речи используются колоссальные наборы данных и мощные вычислительные ресурсы для обучения применяемых в них моделей. В процессе распознавания отдельно сказанных слов в хороших акустических условиях (без фонового шума или реверберации) с помощью словаря из нескольких тысяч слов и при одном дикторе точность может превышать 99%. При распознавании неограниченной непрерывной речи с разными дикторами обычной является точность 60—80%, даже при хороших акустических условиях. А при наличии фонового шума и искажений, характерных для передачи речи по телефону, точность снижается еще больше. Хотя практически применяемые системы совершенствовались в течение нескольких десятилетий, все еще остаются возможности для внедрения новых идей.