Разработка устройства распознавания речи

Копия Глава 15. Вероятностные рассуждения во време

Страница 2 из 2

Но указанный подход может не получить широкого распространения по таким причинам: данные с метками, проставленными вручную, обходятся дорого и встречаются редко, причем может оказаться, что даже доступные наборы данных с метками, расставленными вручную, не соответствуют тем типам говорящих людей и тем акустическим условиям, которые обнаруживаются в новом контексте распознавания речи. К счастью, алгоритм ожидания-максимизации, или сокращенно алгоритм ЕМ (Expectation Maximization), позволяет изучать модели перехода и модели восприятия НММ без необходимости использования данных с метками. Оценки, полученные на основе данных с метками, расставленными вручную, могут использоваться для инициализации моделей; после этого управление берет на себя алгоритм ЕМ и обеспечивает обучение моделей, предназначенных для решения предъявленной задачи. Идея функционирования этого алгоритма является простой: если дана некоторая модель НММ и последовательность наблюдений, то можно использовать алгоритмы сглаживания, описанные в разделах 15.2 и 15.3, для вычисления вероятности каждого состояния на каждом временном интервале, а затем, с помощью несложного дополнения, использовать его для вычисления вероятности каждой пары "состояние—состояние" на последовательных временных интервалах. Эти вероятности могут рассматриваться как неопределенные метки. С помощью этих неопределенных меток можно оценить новые вероятности перехода и восприятия, после чего повторить процедуру применения алгоритма ЕМ. Такой метод гарантирует увеличение согласования между моделью и данными после каждой итерации и обычно сходится к гораздо более лучшему множеству значений параметров по сравнению с теми, которые были получены с помощью первоначальных оценок, сформированных по данным, размеченным вручную.

В современных системах распознавания речи используются колоссальные наборы данных и мощные вычислительные ресурсы для обучения применяемых в них моделей. В процессе распознавания отдельно сказанных слов в хороших акустических условиях (без фонового шума или реверберации) с помощью словаря из нескольких тысяч слов и при одном дикторе точность может превышать 99%. При распознавании неограниченной непрерывной речи с разными дикторами обычной является точность 60—80%, даже при хороших акустических условиях. А при наличии фонового шума и искажений, характерных для передачи речи по телефону, точность снижается еще больше. Хотя практически применяемые системы совершенствовались в течение нескольких десятилетий, все еще остаются возможности для внедрения новых идей.

<< В начало < Предыдущая 1 2 Следующая > В конец >>