Главная arrow книги arrow Копия Глава 15. Вероятностные рассуждения во време arrow Звуки речи
Звуки речи

Звуковые волны представляют собой периодические изменения давления, которые распространяются через воздух. Звук может быть измерен микрофоном, диафрагма которого смещается под воздействием изменений давления и вырабатывает непрерывно изменяющийся ток. Аналогово-цифровой преобразователь измеряет величину тока (которая соответствует текущей амплитуде звуковой волны) через дискретные интервалы, определяемые частотой дискретизации. Для обработки речи, как правило, применяется частота дискретизации от 8 до 16 кГц (т.е. от 8 до 16 тысяч раз в секунду). (Дискретизация высококачественных музыкальных записей осуществляется с частотой 44 кГц или больше.) Точность каждого измерения определяется коэффициентом квантования; в системах распознавания речи обычно применяется от 8 до 12 битов. Это означает, что в системах низкого класса дискретизация происходит с частотой 8 кГц и с квантованием 8 битами, а это требует для передачи фрагмента речи, занимающего одну минуту, примерно половины мегабайта. Было бы практически невозможно создавать и манипулировать распределениями вероятностей Ρ (signal | phone) с таким большим объемом воспринимаемой информации, поэтому необходимо разработать более краткие описания акустического сигнала.

Прежде всего необходимо отметить следующее: хотя звуковые частоты в речи могут достигать нескольких килогерц, изменения в содержимом этого сигнала происходят гораздо менее часто, возможно, с частотой не больше 100 Гц. Поэтому в системах распознавания речи суммируются свойства сигнала за более продолжительные интервалы, называемые фреймами. Длина фрейма равна приблизительно 10 миллисекундам (т.е. соответствует 80 выборкам на частоте 8 кГц); это означает, что она достаточно мала, чтобы обеспечить исключение с помощью процесса суммирования некоторых помех, отличающихся меньшей продолжительностью. В пределах каждого фрейма происходящее в нем представляется с помощью вектора акустических характеристик. Например, во фрейме можно охарактеризовать количество энергии в каждом из нескольких частотных диапазонов. К другим важным характеристикам относится общее количество энергии во фрейме и его отличие от предыдущего фрейма. Извлечение характеристик из речевого сигнала можно сравнить с прослушиванием выступления оркестра и определением того, что "теперь валторны звучат громко, а скрипки — тихо". На рис. 15.14 показано, как происходят преобразования из непосредственно измеряемого звука в последовательность фреймов. Обратите внимание на то, что фреймы перекрываются; это позволяет предотвратить потерю информации, которая могла бы произойти, если бы важное акустическое событие случайно совпало с границей одного из фреймов.

Рис. 15.14. Преобразование акустического сигнала в последовательность фреймов; для описания каждого фрейма применяются значения трех акустических характеристик