Главная arrow книги arrow Копия Глава 15. Вероятностные рассуждения во време arrow Звуки речи
Звуки речи

В данном случае показаны фреймы только с тремя характеристиками. В реальных системах используются десятки или даже сотни характеристик. Если применяется η характеристик и каждая из них имеет, скажем, 256 возможных значений, то любой фрейм представляется в виде точки в n-мерном пространстве и существует возможных фреймов. При n>2 была бы практически неосуществимой попытка представить распределение вероятностей Р( features | phone) в виде явно заданной таблицы, поэтому требуется дальнейшее сжатие. Ниже описаны два возможных подхода к решению этой задачи.

•    В методе векторного квантования, или сокращенно VQ (Vector Quantization), все n-мерное пространство подразделяется, допустим, на 256 областей, обозначенных метками от С1 до С256. В таком случае появляется возможность представить каждый фрейм с помощью одной метки, а не вектора из η чисел. Поэтому в табулированном распределении Ρ(VQ|phone) имеется 256 вероятностей, заданных для каждой фонемы. Но метод векторного квантования больше не находит широкого применения в крупномасштабных системах.

•    Вместо дискретизации пространства характеристик для описания распределения Р(features|phone) может использоваться параметризованное непрерывное распределение. Например, для каждой фонемы может применяться гауссово распределение с различным средними и матрицами ковариаций. Такой метод становится приемлемым, если акустические реализации каждой фонемы кластеризованы в отдельной области пространства характеристик. Но на практике звуки могут распределяться по некоторым областям, поэтому приходится использовать сочетание гауссовых распределений. Такое сочетание представляет собой взвешенную сумму к отдельных распределений, поэтому в распределении Р( features | phone) имеется к весов, к векторов средних с размером n и k матриц ковариации с размером , т.е. для представления каждой фонемы применяетсяпараметров.