Главная > Оптика > Оптические вычисления
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10.3.3. Техническое зрение

Техническое зрение, как подразумевает само это понятие, заключается в создании машины, способной понимать в реальном времени визуальный входной сигнал. Как и для человеческого зрения, машинное зрение включает в себя идентификацию той Информации, которая содержится в образе или визуальной сцене и которая указывает, как различные элементы связаны друг с другом в пространстве и времени. Область применения таких систем отнюдь не ограничена использованием в качестве входных устройств, облегчающих организацию связи человека с машиной, а включает в себя широкий круг проблем, как промышленных, так и военных. Последние успехи, достигнутые в автоматизации процессов и робототехнике, например создание роботов, осуществляющих выборку из бункера, стали возможными благодаря исследованиям машинного зрения. Другая

область промышленного применения подобных систем включает в себя создание сенсоров для автоматической сварки, обработку опасных для здоровья материалов, изготовление микросхем со сверхвысокой степенью интеграции, автоматизированное проектирование и производство, проверку готовых изделий, получение изображений в медицине, обнаружение удаленных объектов в картографии, управление транспортом, создание вспомогательных средств для водителей транспортных средств и авиации, разведку месторождений нефти и полезных ископаемых. Область возможных применений в военной технике может быть столь же широкой и включает в себя, например, автономные системы навигации движущихся объектов, системы обработки фотоснимков, средства ведения разведки, системы выбора цели и дальномерные устройства, средства наведения на цель, определения траекторий движущихся объектов. Все это составляет те задачи, где наиболее целесообразно применение оптических методов, поскольку визуальная информация по своей природе является оптической и может обрабатывать двумерными способами.

Во многих случаях системы машинного зрения создаются на базе систем, основанных на знаниях и описанных в предыдущем разделе при изложении вопросов создания систем понимания речи. Как и в случае речевых систем, знания высокого уровня о рассматриваемой сцене или изображении эффективно используются для ограничения объемов информации, используемой в процессах идентификации и понимания визуальных сцен. Аналогично в системах технического зрения знания высокого уровня, характеризующие сцены, могут эффективно использоваться для управления операциями низкого уровня. Ниже в данном разделе будут приведены примеры того, как знания могут применяться для ограничения процессов поиска и обработки данных.

Другая параллель между речевыми системами и системами технического зрения заключается в близости подходов к использованию знаний и управлению. В одной из ранних работ по проблеме технического зрения парадигма восходящей иерархии использовалась аналогично тому, как это делалось в случае распознавания отдельных слов. Согласно этому подходу, на стадии предварительной обработки осуществляется обнаружение края объекта, производится выделение признаков и определяется их взаимосвязь, но не используется получение логических выводов на основе имеющихся знаний. Как и в случае речевых систем, система, выполняющая этап предварительной обработки, называется системой технического зрения низкого уровня (выполняющей соответственно обработку низкого уровня). Система, включающая в себя последовательное взаимодействие с базой знаний, называется системой

технического зрения высокого уровня (соответственно речь идет об обработке высокого уровня).

В настоящее время разработчики изучают возможности сочетания обработки высокого и низкого уровня в парадигмах большего масштаба. Например, выполнение рассуждений высокого уровня об ожидаемых свойствах объекта и их взаимосвязи оказывается полезным для организации оптимального прохождения задач и управления обработкой низкого уровня. Преимущества такой схемы обработки данных определяются эффективной концентрацией усилий на конкретных участках изображения, таких как выделение края объекта или нахождение линейных элементов изображения. На других стадиях процесса технического зрения обработка низкого уровня может быть использована для выработки гипотез, которые следует проверять с помощью обработки высокого уровня. В этом случае эффективность процесса удается повысить путем отбрасывания гипотез, которые несовместимы с имеющимся изображением.

Аналогично тому как системы обработки речи низкого уровня включают в себя методики распознавания образов, системы технического зрения также развивались на основе ранних работ по распознаванию образов. Однако рассмотрение технического зрения только как процесса распознавания образов является неточным; распознавание образов является по своей сути исключительно цифровой процедурой, выполняемой непосредственно с изображением. Техническое зрение, напротив, использует знание о сцене для того, чтобы оценить категорию изображения, и работает с символьным представлением изображения, а не с самим изображением. Это составляет наиболее существенное различие между ними, и в целом ситуация оказывается аналогичной случаю использования знаний синтаксиса для понимания языка (вопрос понимания естественного языка излагается в разд. 10.3.4).

После общего описания концепции машинного зрения авторам хотелось бы дать элементарное представление о типах процессов и вычислений, используемых в системах технического зрения. Детальное обсуждение выходит за рамки данной главы; за дополнительной информацией по этому вопросу читателю следует обратиться к таким прекрасным книгам, как [5] и [13].

Для простоты в последующем обсуждении проблем технического зрения обработка будет рассматриваться как процесс, происходящий в элементах детектора изображения, который обычно представляет собой тот или иной вид двумерного матричного устройства, например телевизионной камеры или видикона. Как и в случае речевых систем, техническое зрение низкого уровня в основном сосредоточивается на

преобразовании уровня сигнала в символьную информацию. Эта информация «записана» в виде вариаций интенсивности элементов двумерной матрицы и относительного расположения этих вариаций. Кроме того, информация может содержаться в цвете и текстуре изображения, так как оба этих признака могут быть выделены из входного изображения. Процедура обработки начинается с выделения признаков, и выполняется посредством обработки данных, записанных в ячейках, и направлена на обнаружение краев отдельных фрагментов, как это показано на рис. 10.15.

Первый шаг этой процедуры — стадия предобработки, которая подготавливает изображение для обработки. Например, может потребоваться специальная обработка изображения, связанная с наличием шумов или нерезкостью изображения, определяемых оптической схемой или механическим перемещением отдельных узлов схемы. Коррекция геометрических искажений необходима, чтобы исключить влияние угла зрения на изображение и скорректировать искажения, вносимые в изображение линзами или какими-либо другими источниками при вводе изображения в компьютер. Можно применить несколько сенсоров, чтобы получить, например, трехмерное изображение или использовать передачу информации сразу на нескольких длинах волн. В таком случае входные сигналы, поступающие с нескольких сенсоров, могут быть объединены на стадии предобработки с целью достижения максимально надежной работы системы.

Обычно первой операцией после предобработки является операция выделения признаков. Эта процедура, как правило, выполняется путем нахождения градиентов в изображении; для этого вычисляют разность двух гауссовых распределений. Данная процедура иллюстрируется на рис. 10.16. Она реализуется путем вычитания двух гауссовых функций, в результате находят две точки перехода через нуль. Указанная процедура позволяет получить распределение градиентов интенсивности света и, в частности, идентифицировать края объекта.

Следующий шаг обработки называют выделением общего контура объекта и фрагментацией изображения первого порядка. Выяснив, где находятся края объектов, имеющихся в сцене, какие линии и края объектов в одной части сцены являются продолжением линий и изображений в других частях сцены, какие области сцены принадлежат отдельным объектам, с помощью выделенных признаков удается определить пространственный контур объекта. Идея здесь заключается в как можно более быстром переходе от вычислений данных, содержащихся в отдельных ячейках, к рассмотрению целого объекта.

В качестве примера на рис. 10.17, а-г представлен танк, движущийся по дороге. Оператор вычисления разности

(кликните для просмотра скана)

гауссовых распределений выделяет края изображения танка, которые на этапе выделения общего контура объекта могут быть соединены линиями. В примере с танком его изображение делилось на отдельные области, содержащие башню, корпус, дорогу, гусеницы.

Необходимы специальные средства, позволяющие распознать конкретные объекты по их общему контуру (для танка — это гусеницы, пушка, дорога и т. д.), а также устанавливать соотношения между этими объектами. Это делается в процессе выделения признаков изображения и на стадии их разбиения по группам. В настоящее время имеется несколько конкурирующих между собой способов выполнения этой процедуры, которая хотя и просто описана на словах, но требует большого объема сложных цифровых и символьных вычислений. Символьное представление разбитого на фрагменты изображения

Рис. 10.17. Пример обработки изображения на промежуточных этапах в системе технического зрения.

осуществляется на следующем этапе обработки, и в конце концов получающийся набор символов краев и различных областей получает семантическую интерпретацию, что дополнительно требует применения ряда моделей, создаваемых на самом высоком уровне обработки. Общая архитектура рассмотренной системы представлена графически на рис. 10.18.

В качестве примера описанного выше процесса можно рассмотреть задачу идентификации того факта, что изображение на самом деле является танком. Один из аспектов этого процесса заключается в определении идентичности и соотношения между собой фрагментов изображения на рис. 10.17. Методика выполнения этой задачи, основанная на использовании фреймов (разд. 10.2.2), представлена на рис. 10.19. Здесь для выяснения формы башни и ее положения относительно корпуса проводится анализ подобных объектов, содержащихся в базе знаний. В рамках фрейма башня рассматривается как производный объект от класса объектов типа пушка, имеющий два конкретных воплощения: башня танка и башня корабельного орудия. Этот фрейм может вызывать образ башни из памяти системы с целью символьного сравнения с фрагментированным исходным изображением. Тогда путем рекурсивного повторения этой процедуры система может идентифицировать корпус танка. Система может построить гипотезу, предполагающую, что фрагменты изображения являются элементами танка. Но данная гипотеза не будет подтверждена до того момента, как будут определены другие элементы сцены.

Как можно ожидать, данный процесс представляет собой весьма серьезное «узкое место» в системах машинного зрения даже в случае применения знаний в соответствующей области для ограничения пространства поиска. Дело в том, что получение единственного непротиворечивого вывода может потребовать использования большого числа гипотез и операций сравнения. Это наводит на мысль о целесообразности использования для таких вычислений параллельной обработки, но, к сожалению, в настоящее время в реальном времени такие процедуры проводить не удается. Однако если объект идентифицирован, то оставшуюся часть вычислений выполняют в символьном виде.

Последнее обстоятельство приводит к такому этапу вычисления, как понимание содержания наблюдаемой сцены, которая, к сожалению, представляет наименее понятную область всей процедуры. Совершенно недостаточно указать, что объект имеет башню, пушку, гусеницы, поскольку такой объект может быть не танком, а гусеничным бронетранспортером или каким-то другим транспортным средством. Указать, что объект представляет собой танк — это опять-таки слишком далеко от понимания, о каком типе танка идет речь или какие действия он

совершает. Чтобы выполнить даже простейшее из этих заданий, потребуется применение усложненных методов моделирования, связанного с наличием четкого описания этих объектов в базе знаний системы. Широко распространенные методики используют ряд изображений для анализа движения, а затем делают заключение относительно действий объекта. Однако временные характеристики параметров объекта не всегда являются доступными, следовательно, приходится разрабатывать методики понимания сцен из контекста.

В процессах технического зрения знание о сцене может быть использовано для ограничения поиска на любом из уровней

Рис. 10.18. (см. скан) Парадигма обработки изображения.

Рис. 10.19. (см. скан) Прототип фрейма, описывающего танк.

обработки. Вначале делают заключения относительно геометрических свойств объектов на основе знаний о невидимых частях трехмерных геометрических объектов, таких, как башня танка; с этой целью совершают переход к двумерной модели. При этом знание конкретной области позволит, например, отличить шоссе от взлетно-посадочной полосы; для этого можно использовать сведения о возможных различиях окружающей среды возле шоссе и взлетно-посадочной полосы. Наконец, идентификация объекта шоссе увеличит уверенность в том, что сцена представляла собой танк, а не корабельное орудие.

Если бы использовалась какая-либо иная стратегия управления, отличающаяся от восходящей, то имеющиеся знания о сцене ограничивали .бы действие системы иным образом. Как и в случае обработки речи, возможны самые различные виды стратегии управления процессом понимания изображения, включая нисходящую иерархию, смешанные подходы нисходящей и восходящей иерархий и различные варианты подхода, использующего рабочую область общего доступа. Для нисходящей иерархии контролируются и проверяются предсказания, сделанные с помощью моделей высокого уровня, содержащихся в базе знаний (например, предположение о наличии в изображении такого объекта, как дорога). В этом случае для проверки гипотез высокого уровня обычно используются специальные образцы для сопоставления. В случае организации в системе рабочей области общего доступа процессоры, выделяющие признаки, и процессоры, выполняющие символьные и семантические процедуры, работают параллельно и взаимодействуют друг с другом посредством общей для всех них рабочей области памяти. Важным моментом здесь является то, что имеющиеся знания влияют на все уровни вычислений, какая бы стратегия управления ни использовалась, и очень часто для проверки любой гипотезы на низших уровнях обработки требуется применение итерационных процедур.

Из сказанного выше читателю следует понять, что основу проблемы технического зрения составляет распознавание сложных объектов. Для устранения имеющихся в настоящее время «узких мест» требуется развитие новых более эффективных алгоритмов и гибких методик сопряжения различных этапов обработки, таких, как обнаружение основных компонент изображения, выделение/группирование признаков, взаимодействие с базой знаний. Проблема состоит в том, что в настоящее время большинство алгоритмов технического зрения работает очень медленно и отдельные стадии обработки разобщены и очень часто требуют применения различных аппаратных средств для достижения желаемых функциональных средств. С этим связана необходимость эффективного представления знаний в памяти системы в форме, доступной не только для

определенных вариантов операции сопоставления с образцом, но также для присваивания символов и определения контекста. Эффективная архитектура для систем технического зрения и обработки изображений, включающих понимание объектов, должна соответствовать всем этим требованиям. Как представляется авторам, за счет использования параллелизма в вычислительных операциях систем технического зрения и разработки соответствующих систем, реализующих алгоритмы технического зрения, многие из этих трудностей могут быть преодолены. Оптические способы решения этой задачи, как будет показано в разд. 10.4, также являются перспективными.

Авторы уверены в том, что системы технического зрения, использующие методики моделирования высокого уровня, в случае применения оптических методик могут получить ряд преимуществ, поскольку они объединяют элементы как цифровых (например, обнаружение/усиление края объекта, фурье-методики для вычислений признаков), так и символьных (сопоставление с образцом, распознавание объектов и т. д.) вычислений [14]. Так как такие системы требуют интенсивной работы с базой знаний, то применение систем с большой пропускной способностью памяти (см. разд. 10.4) может облегчить решение некоторых задач, связанных с итерационным процессом идентификации. Наиболее совершенные системы понимания изображений [15, 16] требуют сопряжения чисто цифровой обработки изображения, выполняемой на самом низком уровне выделения фрагментов изображения, с символьными вычислениями, выполняемых на более высоких уровнях в процессе классификации и распознавания объектов [17]. Сочетание цифровых и символьных вычислений для решения таких задач технического зрения, как управление оптическими потоками, может явиться для оптических вычислений наиболее важным применением в области ИИ.

В данном разделе представлено введение в проблему машинного зрения и на ряде примеров выявлены некоторые из наиболее трудных вычислительных проблем, связанных с процессами технического зрения. В то же время проведены параллели между обработкой изображений и обработкой речи, используя в качестве основы для обсуждения проблему понимания речи, рассмотренную в предыдущем разделе. В следующем разделе будут представлены новые аспекты ряда уже обсуждавшихся вопросов, таких, как иерархия управления и проверка гипотез.

<< Предыдущий параграф Следующий параграф >>
Оглавление