Главная > Интеллектуальные системы > Искусственный интеллект (Э. Хант)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.2.2. Распознавание отдельных слов

Мы не хотим усложнять проблему больше, чем это необходимо. Разочаровывающие замечания о трудностях выделения фонетической информации из акустической относились к ситуациям, в которых различные говорящие использовали различные контексты. Предположим, что вместо этого проблема состоит в распознавании слов, выбираемых из некоторого ограниченного множества слов, произносимых говорящим, характеристики голоса которого известны системе. Если допустимы k слов и эта величина весьма мала, то вполне осуществимо хранение прототипов акустических образов каждого слова для каждого говорящего. В самом деле, для одного слова может храниться несколько образов, таких, что никакие два слова не имеют близких образов. Тогда задача распознавания сводится к простой задаче классификации образов. Как прототипы, так и идентифицируемые слова описываются характерными признаками, содержащимися в акустическом сигнале, которые (обычно)

достаточны для определения произнесенного слова. Задача распознавания речи в этом ограниченном случае сводится к задаче выделения признаков. Можно ли найти признаки, которые легко вычисляются из акустического сигнала и информационно достаточны для определения отличающихся прототипов различных слов? Возможно, что необходимо иметь несколько уровней анализа, например, использовать фонемы прототипов для идентификации поступивших акустических сигналов и затем уже сами прототипы для идентификации цепочек фонем. Однако нет необходимости копировать иерархию человеческого восприятия. Будем называть этот метод кодовым, поскольку он основан на прямом отображении акустических признаков в фонемы, а затем в слова. Теоретически этап фонем можно было бы обойти, если бы можно было найти способ непосредственно отображать акустические сигналы в слова из некоторого словаря, но практически это не выглядит возможным. Существует два использовавшихся широких класса методов, основанных на частотной фильтрации и гармоническом анализе.

В случае частотной фильтрации акустический сигнал разбивается на полосы различной ширины, а распределение энергии в каждой полосе подсчитывается для временных интервалов (окон) длительностью мсек каждый. В большинстве случаев длительность интервального окна составляет от 10 до 20 мсек, т. е. значительно меньше времени, необходимого для произнесения фонемы. Таким образом, параметры, описывающие данное окно, должны считаться подфонемными, а не фонемными признаками. До некоторой степени удивительно, что для этого метода безразлична точность разбиения на окна и обработки каждого окна, а также не имеет значения выбор параметров для описания спектра в пределах окна. Висенс (1969) получил хорошее распознавание, подсчитывая число пересечений нуля и пиковых амплитуд в 10 мсек окнах в каждой из шести частотных полос. Редди (1970) отмечает, что нельзя добиться существенно лучшего распознавания, даже если использовать 40 частотных полос, и считает, что практически подойдет любой надежный метод анализа сигнала.

В результате этапа параметризации речевой сигнал будет представлен массивом где — число частотных полос, — число допускаемых окон и — число параметров, выделенных в полосе. В этом массиве ищутся характерные для определенных фонем типы изменений параметров во времени. Прототипы фонем, использующиеся на этом этапе, обычно должны быть заранее получены от человека, речь которого распознается, так как произносимые фонемы имеют индивидуальные особенности. По крайней мере человек, речь которого используется для формирования прототипов,

должен быть того же пола и говорить на том же диалекте, что и человек, голос которого будет звучать на этапе распознавания. При осуществлении сравнения, прежде чем начинать сопоставление этих сигналов с прототипами, речевой сигнал надо разбить на „вероятные фонемы". Наиболее простые и грубые методы заключаются в использовании фиксированных временных интервалов (Висенс, 1969) или в поиске акустической информации, соответствующей паузам в речи, а затем в разделении данных между паузами на равные временные интервалы (Эршер и Кокс, 1972). Вновь не приводит к особенно отличающемуся результату выбор какой-либо особой процедуры, а в некоторых системах этот этап совершенно не используется. На заключительном этапе осуществляется сопоставление записанных и проанализированных речевых сигналов с известными системе прототипами слов. В результате в качестве произнесенного выбирается наиболее близкое слово.

Несмотря на его ограниченность, кодовый метод работает очень хорошо для распознавания отдельных слов. Ряд авторов сообщали о правильном распознавании с результатом от 80 до 90% для отдельно произносимых слов при использовании словарей объемом приблизительно в 50 слов и в некоторых случаях при нескольких говорящих. Имеются данные о том, что применение более ограниченных словарей (10—20 слов) повышает точность до 98%, даже если говорящими могут быть мужчины и женщины (Эршер и Кокс, 1972). Для системы, построенной Висенсом и Редди, имеются данные о 90% правильного распознавания для одного говорящего и словаря объемом в 500 слов (Ньюэлл и др., 1972).

Альтернативой к выделению простых параметров для нескольких частотных полос является проведение математического анализа полного звукового сигнала. Существует ряд способов осуществить это, большинство из которых существенно опираются на гармонический анализ. Математические обоснования здесь довольно сложны, и мы приведем лишь неформальное описание. Речевой сигнал представляет собой периодическое изменение значения давления во времени, т. е. звуковую волну. Применение преобразования Фурье к сигналу переводит эту информацию (первоначально имевшую временное представление) в эквивалентное представление, показывающее зависимость амплитуды функции от частоты и фазы чисто синусоидальных компонент, необходимых для восстановления первоначального сигнала (частотное представление). В некоторых работах такое представление использовалось непосредственно для сравнения распознаваемой речи с прототипами. Более сильный метод использует дополнительное преобразование, называемое раздельным спектральным анализом (Накано, Итикава и Накато, 1972; Страсбургер, 1972a, б).

В этом подходе результат преобразования Фурье речевого сигнала разделяется на высокочастотные и низкочастотные компоненты. Высокочастотные компоненты обычно соответствуют движениям голосового тракта, в то время как более низкие частоты (меньше 400 Гц) определяются постоянными характеристиками тракта. Таким образом, компоненты ниже 400 Гц могут рассматриваться как характеристики возраста говорящего, его пола и других физических параметров, в то время как высокочастотные компоненты речевого сигнала указывают на мускульные движения, ответственные за произносимые слова. Результатом раздельного спектрального анализа является изменяющийся во времени сигнал, форма которого отражает особенности произнесенных формант. Этот сигнал можно сравнить с соответствующими прототипами различных фонем, если необходимо, произнесенных разными говорящими, для того, чтобы идентифицировать определенные звуки во фразе. Вопрос индивидуальных особенностей обходится не полностью, поскольку различные говорящие будут использовать различные мускульные движения для произнесения одного и того же слова.

Тот факт, что акустические особенности некоторой фонемы зависят от контекста, мог бы привести к мнению, что только что описанные методы не имеют особого значения для распознавания слитной речи. Это не совсем верно. Хотя акустические сигналы, вообще говоря, неоднозначны по отношению к фонеме, которая в них содержится, существует много ситуаций, в которых акустический сигнал единственным образом определяет фонему. Это аналогично анализу сцен, где одни точки имеют единственную трехмерную интерпретацию, в то время как другие допускают несколько объяснений. Далее предположим, что все фразы, получаемые системой распознавания речи, должны произноситься на строго определенном языке с небольшим запасом слов и простой грамматикой. Тогда часто информации, содержащейся в воспринимаемом акустическом сигнале, будет достаточно, чтобы отбросить все допустимые фразы, кроме одной.

Идея комбинировать для определения наиболее вероятного сообщения акустическую информацию и синтаксическое знание использовалась во многих исследованиях вслед за работой Висенса и Редди (Висенс, 1969; см. также обсуждение, проведенное Ньюэллом и др., 1973, гл. 4), которые построили „ухо“ для проекта глаз — рука — ухо Станфордского университета (Мак-Карта, Эрнест, Редди и Висенс, 1968). В этом проекте управляемая машиной рука получала от человека команды передвинуть кубики, лежащие на столе. Как уже отмечалось, система Висенса и Редди использовала иерархическую кодовую схему, однако получаемые системой фразы должны были быть правильными цепочками языка, предназначенного для манипулирования с кубиками, т. е. языка программирования движений руки робота. Используемый язык можно определить, описав

допустимые подстановки, порождающие предложения языка, содержащего только конечное множество предложений. Эти правила подстановки изображены на рис. 13.14. Исследуя их, легко увидеть, что распознавание лишь небольшого числа неоднозначных акустических сигналов в стратегических важных местах позволяет вывести требуемую фразу. Этот процесс вывода может быть (и был) значительно упрощен разумным выбором словаря так, чтобы никакие два слова, являющиеся синтаксическими альтернативами, не были акустически подобными. Хотя это есть не что иное, как обман, если цель состоит в моделировании естественного языка, но практически это вполне обоснованное решение, если цель — построить систему, способную воспринимать ограниченное множество нетривиальных фраз.

Рис. 13.14. Структура языка системы Висенса и Редди — обозначает слово или пробел, на которые не нужно обращать внимания. В квадратных скобках содержатся альтернативы. Возможны семьдесят четыре предложения.

В оправдание такого решения можно привести тот факт, что и в естественном языке во избежание возможной путаницы слова выбираются по такому же принципу.

Какой же эффективности можно ожидать от системы, использующей иерархическое декодирование совместно с синтаксическим анализом? Результат зависит от того, является ли человек, речь которого распознается, также человеком, речь которого использовалась для формирования прототипов. Назовем первого испытуемым, а второго — учителем. Если испытуемый и учитель совпадают, то система Висенса и Редди проводит семантически правильную интерпретацию около 85% фраз, произнесенных испытуемым. Если испытуемый и учитель — различные индивидуумы одного пола, то результат правильного распознавания понизится приблизительно до 60%. Интересное противопоставление этим результатам получено в работе Страсбургера (19726), который объединил метод раздельного

спектрального анализа акустических сигналов с методом синтаксической коррекции. Однако язык SPOCOL, использовавшийся Страсбургером, был значительно богаче языка Висенса и Редди, предназначенного для манипуляции с кубиками. Язык SPOCOL представляет собой разговорный язык для программирования и имеет приблизительно ту же мощность, что и элементарный язык BASIC. Страсбургер обнаружил, что его системой можно правильно распознать 18 из 24 выражений, если один и тот же человек выступает в роли учителя и испытуемого. Если же учитель и испытуемый различны, то распознавались от 12 до 14 из 24 выражений. Поскольку метод преобразования Фурье, применявшийся Страсбургером, эффективно убирает различия в рассматриваемом акустическом сигнале, обусловленные физическими характеристиками говорящего, то ухудшение результата распознавания для различных говорящих, возможно, вызывается отличиями в моторных движениях мускулов гортани индивидуумов при произнесении фонем. Интересно заметить, что хотя Страсбургер, Висенс и Редди использовали совсем различные аналитические методы для исследования акустических сигналов и сильно отличающиеся языки, точности их систем примерно совпадают.

<< Предыдущий параграф Следующий параграф >>
Оглавление