Главная arrow книги arrow Копия Глава 15. Вероятностные рассуждения во време arrow Звуки речи
Звуки речи

Очевидно, что при переходе от полного речевого сигнала к метке VQ или к множеству параметров сочетания распределений некоторая информация теряется. Весь секрет успешной обработки сигналов заключается в том, что характеристики и области (или гауссовы распределения) должны быть выбраны так, чтобы потери полезной информации свелись к минимуму. Любой конкретный звук речи может быть произнесен с помощью слишком многих способов: громко или тихо, быстро или медленно, с высоким или низким ударением, на фоне тишины или шума, а также любым из миллионов разных говорящих людей, каждый из которых имеет свой акцент и обладает разными характеристиками речевого тракта. Обработка сигналов должна осуществляться таким образом, чтобы были устранены все эти вариации и вместе с тем сохранилось то общее, чем характеризуется воспринимаемый звук.

В простую модель, описанную выше, необходимо внести еще два уточнения. Первое из них относится к временной структуре фонем. При обычной речи большинство фонем имеет продолжительность 50—100 миллисекунд, т.е. фонемы занимают 5—10 фреймов. Для всех этих фреймов вероятностная модель Ρ(features | phone) является одинаковой, тогда как большинство фонем обладает ярко выраженной внутренней структурой. Например, фонема [t] представляет собой одну из нескольких взрывных согласных, при произнесении которых поток воздуха прерывается на короткое время, после чего резко освобождается. Изучая акустический сигнал, можно обнаружить, что фонема [t] имеет тихое начало, небольшой взрыв в середине и (обычно) шипение в конце. Эта внутренняя структура фонем может быть описана с помощью модели фонемы с тремя состояниями; каждая фонема имеет состояние Onset (Вступление), Mid (Середина) и End (Конец), а каждое состояние имеет свое собственное распределение среди вероятностей характеристик.