Главная > Оптика > Оптические вычисления
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

11.7.3. Распознавание речи с помощью динамического изменения масштаба времени

Коэффициенты ЛПИ для фрейма входных данных должны коррелировать с каждым фреймом для любого слова, хранящегося в словаре образцов ЛПИ. На рис. 11.12 по оси X изображены входные фреймы ЛПИ, а по оси У — фреймы ЛПИ опорных слов. Словарь опорных образцов разделен на подсловари, в соответствии с частями речи. Слова, которые могут выступать в качестве более чем одной части речи, включены в раздельные подсловари.

Типичное локальное расстояние между -входным фреймом и -опорным фреймом для слова составляет

где — номер коэффициента ЛПИ.

Локальное расстояние вычисляется одновременно вдоль всего волнового фронта, показанного на рис. 11.12, а по мере поступления каждого нового входного фрейма. Мера совпадения между входными и опорными фреймами определяется путем вычислений суммы локальных расстояний во время прогона фрейма. Расширение или каждый входной фрейм может сжиматься или растягиваться (не более чем в 2 раза), с целью учета индивидуальных особенностей скорости речи. На рис. 11.12, б показано, что сумма расстояний выбирается из трех возможностей, которые позволяют производить: сжатие (путь 1); ни расширения, ни сжатия (путь 2); расширение (путь 3). Это выражается уравнением

В верхней части столбцов (рис. 11.12, а) полученная сумма используется для определения того, закончилось ли слово и было ли выполнено сопоставление с образцом. Идентифицированным считается такое слово в словаре, для которого было получено наилучшее совпадение.

На рис. 11.13 показано, как локальное расстояние и динамическое изменение масштаба времени могли бы быть вычислены с помощью оптического перекрестного процессора. 16 коэффициентов ЛПИ, используемые для обработки очередного входного фрейма, загружаются параллельно в 10 узлов по 16

(кликните для просмотра скана)

(кликните для просмотра скана)

процессоров в каждом и остаются там до тех пор, пока не обработаны все опорные слова. Опорные слова записываются в виде 10 фреймов для коротких слов (0,2 с), 20 фреймов для длинных слов, или 30 фреймов (0,6 с) для очень длинных слов. Это позволяет вводить 10 опорных фреймов посредством 160 входных каналов (как показано на рис. 11.13), а длинные слова — разбивать при этом на две или три части.

В начальном состоянии для простоты рассмотрим одно опорное слово, имеющее 10 фреймов. Все 10 наборов 16-ти коэффициентов ЛПИ для опорного слова вводятся в процессор посредством быстродействующих линий связи с памятью. Древовидные структуры вверху на рис. 11.13 выполняют умножение и суммирование в уравнении (11.11). Опорные фреймы постепенно загружаются таким образом, чтобы обеспечить накопление данных слева направо, по всем фреймам. Выход древовидных структур представляет собой столбец с локальными расстояниями (см. рис. 11.12, а), изменяющимися во времени.

Функцию затрат для трех путей, показанных на рис. 11.12, б, вычисляют в потоковом графе (рис. 11.13) с помощью уравнения (11.12). Пути обозначены на рис. 11.13. Задержки, обозначенные D, делают возможным использовать фреймы, соответствующие предыдущим моментам времени. Накопленные затраты, показанные с правой стороны, соответствуют величинам, показанным сверху в столбцах на рис. 11.12, а, и используются для определения конца слова и идентификации слова.

Корреляция входного фрейма и многочисленных опорных слов выполняется путем конвейерной обработки опорных слов. Все опорные слова обрабатываются в специальной области обработки фреймов системы перед переходом к вычислению корреляции со следующим входным фреймом. Задержки, обозначенные D на рис. 11.13, становятся буферами, в которых результаты для всех опорных слов сохраняются до тех пор, пока не будут востребованы. Поток, выходящий из правой части схемы на рис. 11.13, представляет накопленные затраты на поиск корреляции между входным фреймом и фреймами всех опорных слов.

На рис. 11.14 показано, как окончание слова может быть обнаружено посредством логических выводов. Ввод данных осуществляется из выхода схемы, справа на рис. 11.13. Результаты вычислений разделенных на части слов должны суммироваться, как показано для слова 1, (а) и (б). Функция затрат должна просмотреть набор логических операций для определения того, закончилось ли слово в данной точке процедуры. Сами правила показаны на рис. 11.14. Прикладываемые усилия должны быть ниже порогового значения, соответствующие определенному интервалу времени суммарные затраты должны быть ниже порога; кроме того, затраты должны быть меньше, чем в соседних

(кликните для просмотра скана)

точках, и не менее чем определенное число фреймов должно пройти с момента окончания последнего слова. В случае когда слово не соответствует каким-либо тестам, на выход выводится нулевой результат. Далее проводится сравнение между словами. Если слово проходит через минимальный тест, оно будет «отфильтровано» на выход вместе с его значением и идентифицируемым признаком. Наличие ненулевого признака указывает на окончание слова, а само ненулевое значение признака определяет слово. После обнаружения конца слова накопленные функции затрат (в процессе вычисления процедуры динамического изменения временного масштаба) устанавливаются равными нулю, чтобы начать поиск нового слова. Распознанное слово и его возможная принадлежность к какой-либо части речи передаются в анализатор синтаксиса.

<< Предыдущий параграф Следующий параграф >>
Оглавление