Главная > Разное > Применение цифровой обработки сигналов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3.2. Модель речевого сигнала

Методы анализа и синтеза речевых сигналов можно рассматривать с помощью модели, в которой речевой сигнал является откликом системы с медленно изменяющимися параметрами на периодическое или шумовое возбуждающее колебание [13, 4]. По существу речеобразующий механизм (голосовой тракт) является акустической трубкой, возбуждаемой соответствующим источником при создании желаемого звука. Для звонких звуков источнику возбуждения соответствует квазипериодическая последовательность импульсов, представляющая поток воздуха, протекающий через колеблющиеся голосовые связки. Фрикативные звуки образуются при проталкивании воздуха сквозь сужение голосового тракта. При этом получается турбулентный поток, который является источником шума, возбуждающего голосовой тракт. Разрез голосового механизма показан на рис. 3.1. Пример речевого сигнала, содержащего звуки обоих видов, приведен на рис. 3.2.

Как упоминалось выше, речевой сигнал можно промоделировать откликом линейной системы с переменными параметрами (голосового тракта) на соответствующий возбуждающий сигнал. При неизменной форме голосового тракта выходной сигнал равен свертке возбуждающего сигнала и импульсного отклика голосового тракта. Однако все разнообразие звуков получается путем изменения формы голосового тракта. Если форма голосового тракта изменяется медленно, то на коротких интервалах времени выходной сигнал логично по-прежнему аппроксимировать сверткой возбуждающего сигнала и импульсного отклика голосового тракта. Такая модель вместе с временными и соответствующими частотными характеристиками для звонкого звука приведена на рис. 3.3. Из примера со звонким звуком видно, что если на коротком интервале времени входной сигнал является периодическим с постоянной основной частотой, то и выходной сигнал является периодическим. Систему можно рассмотреть и в частотной области Преобразование Фурье речевого сигнала равно произведению преобразований Фурье возбуждающей функции и импульсного отклика голосового тракта (рис. 3.3.6).

Рис. 3.1. (см. скан) Разрез голосового механизма (по Маркелу и Грею).


В частности, спектр, соответствующий периодическому возбуждающему сигналу, является линейчатым. Интервал между соседними линиями спектра равен а форма огибающей спектра определяется формой воздушного импульса, выходящего из гортани. Частотная характеристика голосового тракта является сравнительно гладкой функцией частоты; поскольку голосовой тракт представляет собой полость, то в первую очередь он характеризуется акустическими резонансами, соответствующими резонансным частотам этой полости, которые обычно называются формантными частотами. Спектр речевого сигнала образуется перемножением линейчатого спектра возбуждающего сигнала и спектра, соответствующего голосовому тракту, и, следовательно, тоже является линейчатым, а его огибающая характеризует передаточную функцию голосового тракта. Поскольку при создании различных звуков форма голосового тракта изменяется, огибающая спектра речевого сигнала будет, конечно, тоже изменяться с течением времени. Аналогично при изменении периода сигнала, возбуждающего звонкие звуки,

(кликните для просмотра скана)

Рис. 3.4. (см. скан) Спектрограммы высказывания «there was some delay on the rayon stocking». a - широкополосная спектрограмма; б - узкополосная спектрограмма.


частотный разнос между гармониками спектра будет изменяться. Следовательно, необходимо знать вид спектра речевого сигнала на коротких отрезках времени и как он изменяется во времени.

Изображение кратковременного спектра речевого сигнала в координатах время — частота — яркость называют спектрограммой речи [29]. На практике обычно рассматриваются широкополосные и узкополосные спектрограммы речи. Широкополосная спектрограмма имеет сравнительно высокое разрешение по времени, и поэтому на ней хорошо видны периоды речевого сигнала. Однако разрешение по частоте недостаточно для изучения тонкой структуры спектра речи, определяемой возбуждающим сигналом. На узкополосной спектрограмме хорошо наблюдаются частотные гармоники возбуждающего сигнала, однако разрешение по времени не столь высокое, как на широкополосной спектрограмме. На рис. 3.4 приведены примеры широкополосной и узкополосной

спектрограмм одного и того же высказывания. На этих рисунках амплитуды спектральных составляющих кратковременных спектров представлены различной яркостью, причем большим амплитудам спектра соответствуют более темные участки. На рис. 3.4, а дана широкополосная спектрограмма, соответствующая фильтрам с эффективной полосой 300 Гц. При произнесении звонких звуков отчетливо наблюдаются резонансы голосового тракта, проявляющиеся на спектрограмме в виде темных полос. Можно также заметить, как изменяется во времени период основного тона. Видны участки с глухими звуками, когда возбуждающий сигнал является шумовым, а не периодическим. Заметим, что отдельные гармоники возбуждающего сигнала звонких звуков по оси частот не разрешаются. Таким образом, по существу широкополосная спектрограмма представляет собой аппроксимацию огибающей спектра как функции времени. На рис. 3.4, б представлена узкополосная спектрограмма, соответствующая фильтрам с эффективной полосой 45 Гц. Если сравнить ее со спектрограммой рис. 3.4, а, то можно увидеть, что теперь отдельные гармоники возбуждающего сигнала разделяются по частоте, а разрешение спектральных составляющих по времени ухудшилось. Более подробно кратковременный спектральный анализ речевых сигналов будет описан в разд. 3.4,

С помощью приведенной модели удобно описывать основные принципы синтеза и анализа речи. В системах анализа речевых сигналов обычно пытаются разделить возбуждающую функцию и характеристики голосового тракта. Далее в зависимости от конкретного способа анализа получают параметры, описывающие каждую компоненту. Можно возбуждающую функцию классифицировать как периодическую или шумовую и задать частоту основного тона, если она периодическая. Характеристики голосового тракта можно представить или отсчетами его частотной характеристики, или постоянными параметрической модели. Согласно модели рис. 3.3, синтез речи можно рассматривать как получение отклика линейной системы с медленно изменяющимися параметрами на периодический или шумоподобный возбуждающий сигнал.

При синтезе речи в рамках системы анализа — синтеза речевых сигналов значения параметров линейной системы и возбуждающего сигнала поступают из анализатора, поэтому структура синтезатора в значительной мере обусловлена структурой анализатора. В разделах 3.4-3.6 будет рассмотрен ряд структурных схем систем анализа — синтеза. Существует также много схем, которые можно применить в задачах, требующих только синтеза речи. Два конкретных класса таких схем описаны в следующем разделе. Несколько других систем синтеза будут также рассмотрены при обсуждении систем анализа — синтеза речи.

<< Предыдущий параграф Следующий параграф >>
Оглавление