Звуки речи - Искусственный интеллект

Копия Глава 15. Вероятностные рассуждения во време

Звуки речи

Страница 1 из 4

Звуковые волны представляют собой периодические изменения давления, которые распространяются через воздух. Звук может быть измерен микрофоном, диафрагма которого смещается под воздействием изменений давления и вырабатывает непрерывно изменяющийся ток. Аналогово-цифровой преобразователь измеряет величину тока (которая соответствует текущей амплитуде звуковой волны) через дискретные интервалы, определяемые частотой дискретизации. Для обработки речи, как правило, применяется частота дискретизации от 8 до 16 кГц (т.е. от 8 до 16 тысяч раз в секунду). (Дискретизация высококачественных музыкальных записей осуществляется с частотой 44 кГц или больше.) Точность каждого измерения определяется коэффициентом квантования; в системах распознавания речи обычно применяется от 8 до 12 битов. Это означает, что в системах низкого класса дискретизация происходит с частотой 8 кГц и с квантованием 8 битами, а это требует для передачи фрагмента речи, занимающего одну минуту, примерно половины мегабайта. Было бы практически невозможно создавать и манипулировать распределениями вероятностей Ρ (signal | phone) с таким большим объемом воспринимаемой информации, поэтому необходимо разработать более краткие описания акустического сигнала.

Прежде всего необходимо отметить следующее: хотя звуковые частоты в речи могут достигать нескольких килогерц, изменения в содержимом этого сигнала происходят гораздо менее часто, возможно, с частотой не больше 100 Гц. Поэтому в системах распознавания речи суммируются свойства сигнала за более продолжительные интервалы, называемые фреймами. Длина фрейма равна приблизительно 10 миллисекундам (т.е. соответствует 80 выборкам на частоте 8 кГц); это означает, что она достаточно мала, чтобы обеспечить исключение с помощью процесса суммирования некоторых помех, отличающихся меньшей продолжительностью. В пределах каждого фрейма происходящее в нем представляется с помощью вектора акустических характеристик. Например, во фрейме можно охарактеризовать количество энергии в каждом из нескольких частотных диапазонов. К другим важным характеристикам относится общее количество энергии во фрейме и его отличие от предыдущего фрейма. Извлечение характеристик из речевого сигнала можно сравнить с прослушиванием выступления оркестра и определением того, что "теперь валторны звучат громко, а скрипки — тихо". На рис. 15.14 показано, как происходят преобразования из непосредственно измеряемого звука в последовательность фреймов. Обратите внимание на то, что фреймы перекрываются; это позволяет предотвратить потерю информации, которая могла бы произойти, если бы важное акустическое событие случайно совпало с границей одного из фреймов.

Рис. 15.14. Преобразование акустического сигнала в последовательность фреймов; для описания каждого фрейма применяются значения трех акустических характеристик

<< В начало < Предыдущая 1 2 3 4 Следующая > В конец >>