Главная > Интеллектуальные системы > Искусственный интеллект (Э. Хант)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.2. Восприятие машиной речи

13.2.0. Задачи понимания речи

В самой общей форме машинное восприятие звуков должно относиться к системе, осуществляющей перевод акустических сигналов в цифровой код. Очевидно, построение устройства,

реагирующего на определенные акустические сигналы, может быть сложной или простой задачей в зависимости от природы этих сигналов и наличия шума. Во всяком случае, непохоже, чтобы такие исследования касались какой-либо общей проблемы, однако за одним исключением. Речь идет о восприятии речи. Безусловно, можно выделить достаточное количество информации из акустического речевого сигнала, закодировать ее в виде последовательности импульсов или непрерывного электрического сигнала и передать эту информацию человеку, чтобы он мог распознать семантическое содержание первоначального высказывания. В конце концов это как раз то, что происходит в телефонном разговоре, при этом никто и не пытается каким-то образом автоматизировать процесс распознавания. Под машинным восприятием речи понимается более глубокая задача. Целью является разработка машины, способной в данном акустическом сигнале идентифицировать лексические компоненты сообщения. Лексическая идентификация рассматривается как предварительный этап семантического анализа, представляющего собой самостоятельную и значительную проблему.

Зачем непременно нужна машина, воспринимающая речь? Во-первых, потому, что ее построение явилось бы интересным научным результатом. Во-вторых, потому, что люди не должны будут тогда общаться с машиной на ее языке. Это серьезная проблема. Как и многие другие, Кемени (1972) отметил, что главное препятствие к широкому использованию вычислительных машин заключается в требовании, чтобы пользователь усвоил весьма ограниченную, машинно-ориентированную форму общения. В докладе, подготовленном для Агентства оборонных исследовательских проектов Министерства обороны США, приведен целый ряд более специфических ситуаций, в которых была бы полезна машина, воспринимающая речь (Ньюэлл и др., 1972). Среди этих проектов были построение систем хранения и обработки данных, к которым можно было бы обращаться через машину, осуществление возможности непосредственно задавать вопросы о состоянии большой вычислительной системы, ввод новой информации и контролируемое ЭВМ обучение при использовании вычислительной или другой сложной техники. Впечатляет то, что список представлен как список вполне реальных, а не конечных целей. Для неслишком отдаленного будущего можно вообразить и еще более эффектные задачи. Например, исследователь, находящийся на Земле, возможно, захотел бы управлять на расстоянии устройством, передвигающимся по лунной поверхности, не прибегая к телетайпу в качестве устройства общения. Естественно, что современная научная фантастика предполагает еще более удивительные примеры восприятия информации с голоса.

В упоминаемом докладе Министерству обороны тщательно различаются те возможности, которые требуются от систем в различных приложениях. Многие интересные применения можно реализовать с помощью системы, способной распознавать небольшое число ключевых слов, используемых в ограниченных контекстах. Например, для сообщения о ценах на акции словарь, состоящий из пятисот слов (открытие, закрытие, Стандард Ойл, объем и т. д.), был бы, по-видимому, вполне достаточным. В других ситуациях, используя ограниченные словари, можно получать простые предложения, построенные при помощи грамматики некоторого формального языка. Системы, способные это делать, существуют и позволяют при помощи голоса управлять рукой робота, передвигающей на столе кубики (Висенс, 1969), и диктовать непосредственно вычислительной машине простые программы (Страсбургер, 19726). Для наиболее интересного класса задач требуется, чтобы пользователь был способен описать команды при помощи некоторого нетривиального приближения естественного языка. Ньюэлл и др. считали, что эта задача практически разрешима только в весьма ограниченном семантическом контексте, таком, как описание ходов в шахматной игре с помощью голоса. В этой ситуации семантику можно использовать в помощь анализу на других уровнях, например, если имеется некоторая позиция на доске, то будет иметь смысл только относительно небольшое число произносимых команд.

<< Предыдущий параграф Следующий параграф >>
Оглавление