Главная > Интеллектуальные системы > Искусственный интеллект (Э. Хант)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.2.1. Речевой сигнал

Прежде чем начать подробное обсуждение машинного восприятия речи, следует рассмотреть сам по себе речевой сигнал. Звуки речи образуются в результате прохождения воздуха через голосовую систему, представляющую собой сложное устройство, включающее гортань, рот и носовую полость. Не будем вдаваться в подробности; нам необходимо лишь знать, что эту систему можно считать трубкой, способной менять свое поперечное сечение при помощи целого ряда независимо двигающихся в ней препятствий, таких, как язык, губы и голосовые связки. Звук возникает, когда воздух под давлением проходит через эту трубку. При этом давление воздуха само по себе удается достаточно точно менять, а указанные препятствия можно очень быстро перемещать. В результате возникают хорошо известные нам звуки: щелчки, свист, охи, ахи и другие, на которые способен человек. В любом языке можно выделить около

40 или 50 типов звуков, относящихся к речи, так называемых фонем. Элементы, передающие определенный смысл, или морфемы, строятся из фонем, но, как мы покажем, это делается непросто.

Заданный звук речи формируется характерной последовательностью мускульных движений в голосовом канале. Вообще говоря, можно выделить два широких класса речевых звуков, а именно гласные и согласные. Гласные звуки производятся относительно продолжительными перемещениями воздуха (длящимися более чем 35 мсек) через голосовой канал, который при этом сохраняет свою конфигурацию неизменной. Гласные друг от друга отличаются при этом положением языка и степенью сужения голосового канала. Например, отметим разницу между ударными гласными в словах „нива“ и „это", которые характеризуются передним положением языка с сильным и слабым сужением, и ударными гласными в словах „обут“ и „фаза“, которые характеризуются задним положением языка с сильным и слабым сужением голосового канала. Согласные являются более короткими звуками, получаемыми последовательностью движений, при которых форма голосового канала меняется в процессе извлечения звука. Для каждой согласной существует точная последовательность событий, таких, как высвобождение воздуха на первых буквах в словах „Петя“ и „топот“. Очень важно сохранение этой последовательности для правильного произнесения согласных. В некоторых случаях части голосового канала полностью закрываются, например при произнесении буквы „з“ в слове „зебра". Хомский и Халле (1968) выделили 12 признаков, которые могут отсутствовать или присутствовать и которые можно было бы использовать для классификации звуков американского диалекта английского языка. Каждый из них имеет определенное отношение к распределению энергии акустического сигнала. Халле и Стивенс (1972) пересмотрели этот список, однако в целом он дает хорошее описание мускульных движений при воспроизведении артикуляторных элементов речи.

Очевидно, что слушающий анализирует приходящий к нему сигнал, а не мускульные движения, которые воспроизвели его. Акустический сигнал представляет собой волну, т. е. распространяющееся во времени периодическое изменение звукового давления. Волну можно проанализировать, определяя интенсивность звука на каждой частоте. Исследования по восприятию речевых сигналов показали, что существует область от 300 до 4000 Гц, содержащаяся в которой информация достаточна для восстановления речевого сигнала (Бизигнис, 1972). В области низких частот также сосредоточена значительная доля энергии, но это связано с постоянными характеристиками голосовых связок и служит для идентификации физических характеристик говорящего, таких, как возраст и пол. Распределение энергии по различным частотам в течение некоторого периода времени называется спектром сигнала в течение этого

периода. Время, в течение которого вычисляется спектр, будет называться окном. В анализе речевых сигналов распределение „всплеска“ энергии в определенной полосе частот и определенном интервале времени называется формантой. Принято помечать форманты некоторого фрагмента речи, начиная с FO, соответствующей самой низкой частоте (Турлау, 1971). Поскольку голосовые связки принимают различные формы во время воспроизведения фонемы, то характерного вида „почерка" форманты будет достаточно для идентификации отдельно произнесенной фонемы. На рис. 13.12 приведено упрощенное изображение распределения энергии по времени произнесения слогов „ба“ и „ма“.

Имея такую информацию, уже можно рассмотреть простую (и неверную) модель восприятия речи.

Рис. 13.12. Упрощенные звуковые спектрограммы: Темные области соответствуют большой интенсивности сигнала.

В этой модели машина используется для вычисления спектра речевого сигнала в течение некоторого периода времени, для идентификации формант и затем, используя их, фонем известного языка. Далее фонемы используются для идентификации морфем. Мы будем ссылаться на эту машину как на кодовую модель, поскольку все, что она делает, это переводит акустический код в фонетический, предполагая, что имеется взаимно однозначное соответствие между этими двумя кодами. Допускается возможность присутствия в речевом сигнале шума, но тогда потребуется решить дополнительно лишь несложную задачу распознавания образов.

К сожалению, такая кодовая модель должна быть отвергнута. Хотя фонемы, очевидно, представимы акустически, кодирование сложнее замены специфических звуковых колебаний специфическими мускульными движениями. Это ясно показано в работах Либермана и его коллег по Хаскинской лаборатории (Либерман, 1970; Либерман, Купер, Шенквейлер и Стаддерт-Кеннеди, 1967). Рассмотрим акустический сигнал, соответствующий фонеме которая есть фактически в каждом языке. На рис. 13.13 показаны две упрощенные спектрограммы речи, содержащие одна для слога „да“, другая для слога „ди“. Можно сразу заметить, что эти случаи

существенно отличаются вторыми формантами. Поскольку первые 50 мсек длительности звукового образа имеют прямое отношение к распознаванию того, что первая буква /д/, а не, скажем, /б/, то указанное различие во вторых формантах крайне важно. Интерпретация второй форманты зависит от контекста, в котором она появляется. Эта ситуация не исключение. Вообще справедливо, что спектр фонемы сильно зависит от контекста, в котором эта фонема находится. Существуют две непосредственные причины, почему это должно быть так. Давайте предположим, как это делает и Либерман со своими коллегами, что имеется четкое соответствие между фонемой, которую говорящий собирается произнести, и сигналами к мотонейронам мускулатуры голосового канала, получаемыми от мозга.

Рис. 13.13. Звуковые спектрограммы: а — «ди»; б — «да».

Реальные физические движения в голосовом канале, которые и определяют произнесенный звук, будут зависеть от конфигурации голосового канала, которая была перед тем, как нейронами получены новые сигналы. Также важно и то, что не все группы мускулов одинаково быстро начинают участвовать в формировании определенного звукового сигнала. Поэтому действия этих групп мускулов, участвующих в формировании последовательно произносимых фонем, могут на самом деле осуществляться отчасти параллельно. Поскольку произнесенный звук является результатом прохождения воздуха по всему голосовому каналу, то акустический сигнал, соответствующий определенной фонеме, зависит также от фонем, сформированных как до, так и после этой фонемы. Используя машинные термины, можно сказать, что мы имеем дело с высоко асинхронным механизмом без четко выраженного временного цикла. Если это принять во внимание, то очевидная аномалия на рис. 13.13 больше не кажется удивительной.

Удивительно то, как вообще возможно восприятие речи. Ряд авторов привели доводы в пользу того, что к анализу речи, так же

как и зрения, применима модель, использующая анализ при помощи синтеза (Халле и Стивенс, 1972; Либерман, 1970). Под этим они подразумевают то, что исследуются акустические сигналы, и при помощи очень сложного процесса декодирования слушающий определяет последовательность мускульных движений, которые могли привести к формированию рассматриваемого акустического сигнала. Это выглядит на первый взгляд очень сложной задачей, но более подробное изучение показывает, что это не так. Предположим, что слушающий знаком с языком, на котором произносятся фразы. Такой человек знает, что необходимо рассматривать только те фонетические образования, которые допустимы синтаксическими, семантическими и фонетическими условиями этого языка. Как и в случае зрения, слушающим является человек, который может декодировать неоднозначные сообщения, зная, что только на некоторые сообщения из всех возможных, похоже, следует обратить внимание.

К сожалению, у нас нет возможности сделать обзор фактов, говорящих за или против применения модели, использующей анализ при помощи синтеза, для объяснения человеческого восприятия речи. Однако как предложение реализации машинного восприятия речи такая модель имеет некоторые существенные дефекты. Если бы эту модель нужно было принять буквально, то было бы необходимо иметь машину, воспроизводящую речь, или по крайней мере ее математическую модель в качестве составной части машины, воспринимающей речь. Это можно, но непросто осуществить. С другой стороны, при любой схеме машинного восприятия придется учитывать те сложные аспекты кодирования, которые, собственно, и заставили психоакустиков и психолингвистов отдать предпочтение модели, использующей анализ при помощи синтеза.

<< Предыдущий параграф Следующий параграф >>
Оглавление