Главная > Разное > Применение цифровой обработки сигналов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3.5. Гомоморфный анализ и синтез речевых сигналов

Как было отмечено в разд. 3.2, речевое колебание является Сверткой возбуждающей функции с импульсным откликом голосового тракта. Общий метод нелинейной фильтрации, называемый гомоморфной фильтрацией [60, 59, 8], оказался особенно пригодным для задач инверсной фильтрации речевого сигнала.

Общая структура гомоморфных систем, применяемых для инверсной фильтрации сообщений, показана на рис. 3.19. Свойства

системы определяются следующим соотношением:

где -преобразования соответственно. Поскольку в общем случае функция имеет комплексные значения, необходимо ввести подходящее определение ее логарифма [60]. Система является линейной, а система, обозначенная как обратна по отношению к системе

Рис. 3.19. Каноническое представление гомоморфных систем для фильтрации последовательностей с помощью инверсной свертки.

Если последовательность является сверткой двух компонент так что

то из определения системы вытекает, что

Следовательно,

Таким образом, система преобразует свертку компонент в сумму, что позволяет разделить эти аддитивные компоненты с помощью линейной фильтрации. Сигнал на выходе системы обычно называют комплексным кепстром [60].

Ряд свойств комплексного кепстра делает рассматриваемый способ анализа особенно удобным для анализа и синтеза речевых сигналов. Эти свойства перечислены ниже.

1. Рассмотрим последовательность с рациональным, -преобразованием вида

где меньше единицы, так что сомножители вида соответствуют нулям и полюсам функции, лежащим внутри единичного круга, а сомножители соответствуют нулям и полюсам функции, расположенным

вне единичного круга. Тогда в общем случае комплексный кепстр имеет вид

Отсюда можно сделать вывод, что комплексный кепстр убывает не медленнее по крайней мере, чем Таким образом, комплексный кепстр последовательностей, имеющих -преобразование вида (3.24) (что соответствует последовательностям, представляемым в виде сумм комплексных экспонент), в основном сосредоточен вблизи

2. Комплексный кепстр последовательности

имеет вид

Другими словами, последовательность, состоящая из равноотстоящих (но не обязательно одинаковых по величине) импульсов, имеет комплексный кепстр того же вида.

3. Пусть является последовательностью с минимальной имеющей преобразование Фурье Тогда при Далее рассмотрим последовательность определенную так, что

Из определения (3.28) следует, что является четной частью и может быть найдена на основе логарифма модуля а не из комплексного логарифма, как требует формула (3.20). Можно показать, что

Основным следствием данного свойства является то, что для вычисления комплексного кепстра последовательности с минимальной

ной фазой можно обойтись логарифмом действительной, а не комплексной функции.

4. Пусть является последовательностью с неминимальной фазой и имеет преобразование Фурье и пусть обозначает обратное преобразование Фурье от соответствует четной части комплексного кепстра последовательности Рассмотрим, наконец, последовательность определенную соотношением

Тогда является комплексным кепстром последовательности с минимальной фазой преобразование Фурье которой равно по модулю преобразованию Фурье последовательности т. е.

В силу этих четырех свойств приемы гомоморфной обработки оказываются весьма удобными для анализа и синтеза речевых сигналов. Как указывалось в разд. 3.2, короткие отрезки речевых колебаний можно промоделировать откликом линейной системы, возбуждаемой сигналом в виде последовательности импульсов, если звук звонкий, или в виде шума, если звук глухой. Обычна полагают, что передаточная функция линейной системы, представляющей голосовой тракт, является рациональной функцией т. е. имеет форму (3.24). Следовательно, согласно свойству 1, комплексный кепстр импульсного отклика голосового тракта имеет вид (3.25) и, в частности, сосредоточен в основном вблизи точки В случае звонкого звука сигнал, возбуждающий голосовой тракт, определяется формулой (3.26), и, следовательног его комплексный кепстр описывается формулой (3.27). Таким образом, комплексный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся через интервал, равный периоду основного тона. Поскольку комплексный кепстр импульсного отклика голосового тракта сосредоточен вблизи то в случае звонкой речи комплексные кепстры возбуждающего сигнала и импульсного отклика голосового тракта в основном занимают неперекрывающиеся временные интервалы. Тогда значения кепстра, представляющие голосовой тракт, могут быть извлечены из общего кепстра с помощью линейной системы, которая умножает значения, соответствующие начальным значениям времени, на единицу, а остальные — на нуль.

Пример такого восстановления показан на рис. 3.20. На рис. 3.20, а изображен речевой сигнал в виде отрезка гласного

Рис. 3.20. Восстановление речевого сигнала с помощью гомоморфной фильтрации. а — отрезок гласной; б - комплексный кеистр сигнала а; в — выделенная взвешенная последовательность импульсов основного тона: г - восстановленный импульсный отклик голосового тракта; д - речевой сигнал, синтезированный по импульсному отклику г и возбуждающему сигналу, оцененному из кепстра б (по Оппенгейму и Шаферу).

звука, а на рис. 3.20, б — его комплексный кепстр, полученный после умножения сигнала рис. 3.20, а на весовую функцию Хемминга. В комплексном кепстре хорошо виден максимум в точке, соответствующей периоду основного тона. Сигнал возбуждения (рис. 3.20, б) был получен таким подбором линейного фильтра в схеме рис. 3.19, что сохранялись только составляющие кепстра, соответствующие большим значениям времени. С помощью фильтра, сохранявшего кепстр только при начальных значениях времени, был получен восстановленный импульсный отклик речевого тракта (рис. 3.20, г). На рис. 3.20, б хорошо просматривается влияние взвешивания сигнала, выполненного перед вычислением комплексного кепстра. Для проверки того, что импульс, приведенный на рис. 3.20, г, действительно является хорошей оценкой импульсного отклика голосового тракта, была вычислена свертка этого импульса с идеальным возбуждающим сигналом.

Таким сигналом служила последовательность импульсов с тем же периодом, какой был у основного тона исходной речи (рис. 3.20, б). Полученное искусственное речевое колебание показано на рис. 3.20, д, где хорошо видно его близкое сходство с исходным колебанием.

До сих пор в ходе обсуждения предполагалось, что кепстр вычисляется по формуле (3.20), когда сохраняется как амплитудная, так и фазовая информация. Но широко известно, что человеческое ухо нечувствительно к фазе. Пользуясь свойствами 3 и 4 и предполагая, что речевой сигнал на входе является минимальнофазовым, можно вычислить обратное преобразование от логарифма модуля преобразования сигнала. Если же входной речевой сигнал фактически не является минимально-фазовым (что почти

наверняка и должно быть), то полученные значения кепстра будут содержать информацию только о величине спектральных составляющих, но не об их фазах.

Более популярно можно пояснить механизм восстановления речевого сигнала с помощью кепстров следующим образом. Как уже отмечалось, спектр звонкого звука образуется умножением огибающей, представляющей состояние голосового тракта, на функцию, определяющую тонкую структуру спектра и описывающую возбуждающий сигнал. Тогда логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сигнала. Логарифм огибающей спектра с ростом частоты изменяется медленно, а логарифм спектра возбуждающего сигнала изменяется быстрее и периодичен. Тогда обратное преобразование Фурье от логарифма огибающей спектра сконцентрировано вблизи начальных значений времени, а обратное преобразование от логарифма спектра возбуждающего сигнала состоит из набора линий, что отражает периодичность его в частотной области. Чтобы выделить логарифм огибающей спектра из полного спектра логарифма, необходимо сгладить спектр логарифма. Для этого кепстр взвешивают «окном», «открытым» только в начальные моменты времени, т. е. выделяют начальный участок кепстра [59]. Эту процедуру сглаживания полного спектра логарифма, предназначенную для получения логарифма огибающей спектра речевого сигнала, называют сглаживанием кепстра.

Эффект сглаживания кепстра показан на рис. 3.21. Рис. 3.21, а содержит кепстры, полученпые для последовательных отрезков речевого сигнала. На рис. 3.21, б изображены соответствующие графики логарифмов спектра с наложенными на них графиками логарифмов огибающей спектра, полученными методом сглаживания кепстра.

Измерение огибающей спектра методом сглаживания кепстра оказалось полезным для широкого круга приложений. Оппенгейм [61] использовал его как основу системы анализа — синтеза речи, а Шафер и Рабинер [62] — для автоматического измерения параметров формант.

В системе анализа — синтеза, основанной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состояние голосового тракта или огибающую спектра речевого сигнала. Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала. Блок-схема гомоморфной системы анализа изображена на рис. 3.22, а.

Параметры возбуждающего сигнала определяются по концевой части кепстра. В частности, в кепстре звонкой речи наблюдаются пики в точках, кратных периоду основного тона. Такие пики хорошо видны на рис. 3.21. В спектре глухой речи эти пики отсутствуют. Следовательно, основными операциями анализатора

Рис. 3.21. (см. скан) Оценка огибающей спектра методом сглаживания кепстра. а — кепстры для последовательных отрезков речевого сигнала; б - графики логарифмов спектра и графики логарифмов огибающей, полученные методом сглаживания кепстра (по Шаферу и Рабинеру).


возбуждающего сигнала являются: 1) определение наличия (или отсутствия) пиков в концевой части кепстра, что является признаком звонкой или глухой речи; 2) при наличии импульсов — определение местоположения пиков в кепстре с целью измерения периода основного тона [51].

На вход гомоморфного синтезатора поступают начальная часть кепстра и параметры возбуждающего сигнала. В синтезаторе из начального участка кепстра формируется аппроксимация импульсного отклика голосового тракта. На основе параметров возбуждающего сигнала генерируется функция, которая после свертки с

(кликните для просмотра скана)

импульсным откликом (полученным из начального участка кепстра) и дает синтезированный речевой сигнал на выходе.

В анализаторе речевого сигнала кепстр вычисляется по логарифму модуля спектра, в силу чего он является четной функцией. Если в синтезаторе для расчета импульсного отклика голосового тракта берется симметричный набор значений кепстра, то и получающийся отклик будет симметричен, т. е. будет иметь нулевую (или линейную) фазу. Импульсный отклик можно вычислить и по-другому, пользуясь формулой (3.30), что дает функцию с минимальной фазой. Блок-схема синтезатора изображена на рис. 3.22, б. Прослушивания, проведенные в рабочем порядке, подтвердили, что при синтезе с минимальной и нулевой фазами получаются практически неразличимые результаты. В целом же синтез с нулевой фазой выполнить проще, так как преобразование Фурье от четной последовательности является действительной функцией.

Очевидно, что вид аппаратурной реализации гомоморфной системы анализа — синтеза во многом определяется устройством вычисления кратковременного преобразования Фурье. В настоящее время в наиболее перспективных типах такой системы для выполнения спектрального анализа применяют устройства с зарядовой связью [39]. Некоторые модификации анализаторов и синтезаторов, построенные на базе таких приборов, обладают дополнительными возможностями. В одной из модификаций, например, вместо сглаживания логарифма преобразования Фурье путем сглаживания кепстра можно использовать фильтрацию этого логарифма с помощью фильтра нижних частот, имеющего конечную импульсную характеристику. Тогда при анализе и синтезе речи требуется выполнять только по одному преобразованию Фурье.

<< Предыдущий параграф Следующий параграф >>
Оглавление