Главная > Оптика > Оптические вычисления
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10.3.2. Понимание речи

При разработке систем понимания речи основные усилия были приложены к обеспечению компьютерных систем необходимыми знаниями и разработке методов фильтрации посторонних шумов с целью достижения понимания машиной непрерывной речи в реальном времени. К большому сожалению для разработчиков компьютерных систем люди произносят слова не одинаково. Таким образом даже системы, ориентированные на узнавание речевых входных сигналов (без обязательного понимания ее), сталкиваются с задачей различать слова независимо от личности говорящего, скорости его речи, любых диалектов или акцентов, словарного запаса, пропущенных слогов и, наконец, что не менее важно, фонового шума окружающей среды.

Это, очевидно, представляет трудную задачу, поскольку сами люди не обладают надежной на 100% не зависящей от говорящего системой понимания речи. Существуют проблемы понимания речи, связанные с тем, что соседние слова произносятся слитно, что типично для произношения географических названий, таких как «Лонг Айленд», которые часто произносят как «Лонгойлэн». Так же возникают трудности с различными диалектами, где слово «ойл» (нефть) произносится в разных частях страны как «ол» или как «оул», и очень часто приходится из контекста подбирать значения словам или пропущенным фразам. Это последнее обстоятельство заключает в себе большие трудности для поиска знаний и проведения рассуждений в речевых системах, поскольку предъявляет серьезные требования к использованию методик сравнения с образцом для

идентификации слов, а также к использованию знаний для понимания значений слов и их интерпретации. Вопрос состоит в том, как и где применить знания (рис. 10.11).

Был разработан ряд методик, основанных на использовании знаний в речевых системах, но двумя наиболее совершенными из них являются системы распознавания отдельных слов и понимания непрерывной речи Система распознавания отдельных слов основывается на идентификации слов при раздельном произнесении слов во входном речевом сигнале, как, например,

Это делается с целью уменьшения числа проблем, связанных с идентификацией начал и окончаний слов. Задача идентификации слова из преобразованного акустического входного сигнала все еще остается, и в этом случае она может быть выполнена методом сопоставления с образцом. Данный процесс (рис. 10.12) включает в себя прием входного сигнала, идентификацию основных признаков, таких как вариации основных звуков, а также начала и окончания слова. Следующий шаг — динамическое изменение временного масштаба, за счет чего подстраивают длину произнесенного слова к длине образца (шаблона), используемого для сравнения. Примером этого являются слова «гелий-неоновый» и «Карибское море», которые иногда произносятся так:

при этом каждый из вариантов произносится с разной скоростью.

Для приведения длин слов к стандартной величине сигнал, являющийся функцией времени, расширяют или сжимают, чтобы сделать его совместимым с опорной длиной образца. Особенности этого «стандартизированного слова» затем сравниваются с образцом, хранящимся в памяти системы, а для сравнения слова с его копией в памяти используются взвешенные количественные метрики, такие как показаны на рисунке.

На данном этапе основные трудности встречаются в процессах низкого уровня. Представления о требованиях к скорости вычислений дает тот факт, что обычно на расшифровку одного слова требуется около 500 вычислений количественных коэффициентов. При этом динамическая система изменений масштаба времени приводит данное слово к стандартному фрагменту речи длительностью 500 мс [13]. Для количественных оценок можно полагать, что полное число операций умножения или

вычисления внутреннего произведения на одно слово составляет от 5 до 10 К, при условии использования взвешенной эвклидовой метрики для описания признаков ряда соответствующих фильтров [14], либо применения метрики Итакуры для описания коэффициентов линейного прогнозирования соответствующих признаков [15]. Следовательно, включение оптимальной процедуры вычисления внутреннего произведения или использование оптических методов в качестве составной компоненты

Рис. 10.11. (см. скан) Парадигмы понимания речи.

Рис. 10.12. (см. скан) Обработка речи низкого уровня.

в речевой системе должно быть направлено прежде всего на уменьшение суммарной вычислительной нагрузки.

К сожалению, процедура сопоставления с образцом не является единственным критическим местом в процессе вычислений. Применение знаний высокого уровня, к которому относятся задачи поиска данных и проведения рассуждений, также ограничивает точность и быстродействие системы, не давая возможности эксплуатировать систему в реальном времени. На рис. 10.13 приведем пример того, как знания используются для определения значений подаваемой на вход фразы. В данном случае успешное сопоставление со словами, содержащимися в сети, позволяет машине интерпретировать фразу. Читателю следует иметь в виду то, что приведенный пример является только одним из числа возможных схем построения речевых систем. Уже появились речевые системы, использующие фреймы, сценарии и специальные правила обработки наряду с семантическими сетями.

Многие виды знаний, используемые для понимания речи, определяются исходя из лингвистики языка, и, следовательно, можно ожидать, что они будут также важны и для обработки естественного языка. Каждый из этих видов знаний характерен для используемого словаря и сильно зависит от правил грамматики языка. Таким образом, для машины важно понимать взаимосвязь прилагательного и существительного, наречия и глагола и т. д.

Наиболее очевидным и наиболее знакомым для всех типов знаний является фонетика, относящаяся к физическим характеристикам звуков в каждом слове в словаре и изучающая таким образом акустические характеристики слова. Другим важным типом знаний является морфология, рассматривающая пути, по которым основные структурные блоки, составляющие

Рис. 10.13. Семантическая сеть распознавания речи.

слова (основные морфемы), могут быть скомбинированы для образования новых слов, форм множественного числа, временных форм и т. д. Используя эти типы знаний в качестве основы для организации знаний высокого уровня, можно приступить к задаче определения значения входного речевого сигнала. В начале данного раздела при обсуждении естественного языка были представлены концепции синтаксиса (структура предложения и грамматика) и семантики (способы, по которым значения слов объединяются для образования значений, предложений и фраз). Ясно, что эти виды знания необходимы для любой системы распознавания речи.

Последним и может быть наиболее важным для речи высокого уровня типом знаний является прагматика. Прагматика относится к правилам разговора и диалога, которые позволяют системе различать вопросы и сомнения в фактических ситуациях. В следующих примерах все ситуации имеют одни и те же синтаксические и семантические значения, хотя каждое из них предполагает различный тип взаимодействия с машиной:

«В гелий-неоновом лазере что-то вышло из строя».

«Что-то вышло из строя в гелий-неоновом лазере?

«Что именно вышло из строя в гелий-неоновом лазере?» Первая фраза представляет простое фактическое утверждение, в то время как вторая является подтверждением первой, требуя от системы четкого ответа «да» или «нет». В третьем случае, однако, ответ «да» или «нет» недостаточен; от системы требуется ответ другого уровня. Знание прагматики используемого словаря позволяет системе распознавать и понимать различия в значениях фраз и предложений.

Эти типы знаний могли быть включены в ранее приведенный пример системы распознавания отдельных слов, но этого в данном случае не требовалось. Схема использования знаний в примере независимого распознавания отдельных слов носит исключительно общий характер, применима к большинству типов знаний и называется парадигмой восходящей иерархии. В данном случае восходящая схема подразумевает использование цифровых методик, осуществляемых в начале алгоритма для улучшения качества сигнала и выделения всех признаков, что в целом составляет обработку речи низкого уровня (рис. 10.11). Последующая обработка высокого уровня состоит в использовании знаний, которые в данном случае возникают после завершения обработки низкого уровня. Понятие иерархии характеризует переход от процедур управления низкого уровня через несколько промежуточных этапов к управлению, при котором осуществляется взаимодействие знаний.

Данная парадигма не является единственной и, как для случая обработки непрерывной речи, может быть отнесена с точки зрения ее структуры к нисходящей иерархии или даже

схеме выведения среднего. В каждом из обсуждавшихся случаев, однако, остались без внимания соображения о том, где и когда знания о проблеме должны быть найдены и использованы. Если это происходит в начале процедуры, то речь идет о парадигме нисходящей иерархии; если это происходит в конце процедуры, как в случае распознавания отдельных слов, то это относится к восходящей схеме.

В системах понимания естественной речи для ограничения процесса поиска знаний используются грамматические или лингвистические модели, что означает ограничение активного словаря до определенного числа возможных слов в любой момент времени. При ограничении размера пространства поиска экономится не только время обработки для каждого слова, но и снижается вероятность неудачи и достигается рост скорости распознавания.

Основная система распознавания естественной речи состоит из акустического процессора, выполняющего преобразование сигнал-символ, и лингвистического декодера, применяющего знание для понимания вводимой речи. Типичные системы распознавания естественной речи могут быть реализованы в двух вариантах: во-первых, с распознаванием отдельных слов при случайном их следовании (как, например, для поиска в базе данных) и, во-вторых, понимание значения непрерывно произносимых предложений. В обоих случаях имеются не только общие свойства, аналогичные свойствам систем распознавания отдельных слов, но и различия. Однако главное различие заключается в разных подходах к разделению слов на фрагменты.

Разделение слов на фрагменты, или определение начала и конца отдельных слов, является критической проблемой для систем понимания непрерывной речи. Поскольку слова, произносимые в непрерывной речи, имеют тенденцию сливаться между собой, то алгоритмы обнаружения конца слова, используемые в распознавании отдельных слов, не работают. Существует несколько методов преодоления этой проблемы, и все они являются вариациями алгоритма динамического изменения временного масштаба, обсуждавшегося ранее. Последний алгоритм, хотя и является критической процедурой в вычислениях, но представляет менее трудную задачу, чем сопоставление с образцом или процесс поиска знаний.

Большинство систем понимания непрерывной речи построены по нисходящей схеме, ориентированной на знания и использующей знания о проблеме, обсуждаемой в произносимой речи, для ограничения ожидаемого объема информации, содержащейся во входном сигнале [11]. Такая, методика была успешно реализована в системе Hearsay-Ill [12], где каждый вид знаний может взаимодействовать с частично обработанным входным

сигналом независимо от других типов знаний, как показано на рис. 10.14. Особенностью архитектуры данной системы является наличие рабочей области общего доступа, предназначенной для связи между различными «экспертами» по знаниям. Фактически, позволяя каждому типу знаний оказывать влияние на входной сигнал, получают по существу развитую «экспертную систему» индивидуальной речи (см. разд. 10.3.5). Эта концепция области общего доступа, допускающая взаимодействие между собой большого числа баз знаний, была успешно использована как в системах понимания естественного языка, так и в экспертных системах.

Использование эвристического поиска для ограничения объема информации во входном сигнале имеет свою цену и требует установления компромисса между общностью выполняемых задач и получаемыми характеристиками. Этот вопрос составляет предмет рассмотрения данного раздела и затрагивает в настоящее время практически все вопросы исследований ИИ. Чтобы оценить трудности достижения указанного компромисса, читателю следует принять к сведению, что словарный запас английского языка очень велик — 24 тома Оксфордского словаря английского языка составляют его «священное писание». Хотя

Рис. 10.14. (см. скан) Архитектура системы понимания непрерывной речи Hearsay-Ill,

большинство людей в обиходе использует намного меньший словарный запас, но даже 20 000 слов создают ошеломляющее число возможных комбинаций слов и число вариантов их произношения. Ранние речевые системы, в которые старались включить большинство слов из среднего словарного запаса человека, никогда не были способны даже приблизиться к режиму работы в реальном времени и расходовали слишком много времени на поиск данных в памяти. Решение данной проблемы, использующее аналогии с человеческим мышлением, состоит в использовании для ограничения поиска знаний, граничащих с интересующей проблемой или областью. После того как эта схема была реализована, удалось создать речевые системы, работающие почти в реальном времени, а также добиться успехов в реализации систем технического зрения, систем естественного языка и экспертных систем.

Читателю следует обратить внимание на то, что большая часть недавних усовершенствований в системах распознавания отдельных слов и непрерывной речи обусловлена успехами в создании процессоров обработки сигналов специального назначения. Такие процессоры включают в себя ИС специального назначения и систолические структуры, служащие для обработки речи низкого уровня. Остающиеся при этом критические процедуры, а именно поиск знаний и их обработка, требуют дополнительных исследований символьных вычислений и структуры оптимальной программной среды высокого уровня. (Несколько таких структур описаны в разд. 10.4, где более подробно рассматривается соотношение между структурой обработки и выполняемой функцией.) Как будет показано в следующей части раздела, процессоры специального назначения используются также в системах технического зрения.

<< Предыдущий параграф Следующий параграф >>
Оглавление