Главная > Интеллектуальные системы > Искусственный интеллект (Э. Хант)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.1. Зрение

13.1.0. О невозможности видеть

Представим себе робота (в некотором роде циклопа) с телевизионной камерой вместо глаза. Робот наблюдает сцены, совокупности трехмерных объектов, рассматриваемые с некоторой точки. Однако камера передает роботу лишь двумерный образ, получающийся в результате прохождения лучей от объектов рассматриваемой сцены к линзам камеры. Построение образа, а также его неоднозначность показаны на рис. 13.1. Некоторый объект рассматриваемой сцены представляется в соответствующем образе совокупностью точек, в которых отрезки прямых от линз к этому объекту пересекаются с плоскостью, перпендикулярной оптической оси камеры. Задача зрительного восприятия состоит в восстановлении сцены по заданному образу. В этом разделе мы приведем некоторые доводы, свиде-, тельствующие о неразрешимости этой задачи. Безусловно, читатель сразу же возразит, сказав, что такого рода аргументы не могут быть правильными. Ведь задача анализа сцен стоит как перед людьми, так и перед роботами, и люди решают ее. Это верно, а также верно и то, что неявная цель любого проекта по машинному зрению — достичь способности воспринимать окружающий мир, по крайней мере близкой к человеческой. Однако ни одна из существующих

сейчас вычислительных систем не подходит даже близко к человеческим характеристикам восприятия. Почему?

В качестве начального подхода можно было бы рассматривать анализ сцен как специальную задачу распознавания образов, в которой зрительные образы классифицируются как эквивалентные, даже если они являются различными изображениями одной и той же сцены. Такой подход не приводит к хорошим результатам по причинам, частично объясненным выше при обсуждении проблем распознавания образов. Сцена, рассматриваемая с различных точек, определяет класс эквивалентности относительно вращения в трехмерном пространстве, и поэтому соответствующая задача распознавания относится к теоретико-групповой классификации. Как показал Ватанабе (1971), решение такой задачи с использованием имеющихся в настоящее время методов распознавания образов весьма затруднительно (см. также обсуждение этого вопроса в гл. 7). Более того, анализ сцен требует от нас способности выделять составляющие их компоненты. На языке распознавания образов это означает, что мы должны быть способны распознавать различные двумерные предметы, которые могут получаться в результате проектирования трехмерных объектов на плоскость изображения. Обычно сцены содержат более одного объекта. Поэтому робот должен быть в состоянии распознать некоторый объект среди совокупности других объектов. Минский и Пейперт (1969) доказали, что линейное устройство параллельной классификации этого сделать не может. На основе этих двух замечаний мы должны согласиться, что анализ сцен, по-видимому, должен быть весьма сложным.

Необходимость в более сложном алгоритме противоречит другому требованию, предъявляемому к процедуре анализа сцен — скорости. Непосредственное количество информации, с которым приходится иметь дело в машинном зрении, огромно. Высококачественная телевизионная камера передает изображения, описываемые значениями яркости в 1024x1024 различных точках. Каждая точка в изображении обычно определяется в трехбитовой шкале яркости. Цветное зрение было бы, конечно, еще более сложным. Предположим теперь, что камера передает 30 изображений в секунду. (Это чуть больше скорости, ниже которой большинство людей воспринимали бы мигание. Обычная скорость — пятьдесят кадров в секунду.) В этом случае входные данные необходимо было бы передавать со скоростью или около 108 бит в секунду. Подробная обработка входной информации в реальном времени, поступающей с такой скоростью, едва ли осуществима любой вообразимой ЭВМ.

Существует еще и другая сложность. Несмотря на количество переданной информации, для описания наблюдаемой сцены она все же не достаточна! Этот факт известен уже давно и отмечался психологами, занимавшимися изучением зрительных иллюзий и константности восприятия (Дэй, 1972; Хохберг, 1971). Иллюстрацией к этой

проблеме может служить явление константности размера. Размер изображения некоторого объекта на сетчатке изменяется обратно пропорционально с расстоянием от глаза до этого объекта. Однако для нас не трудно определить, что игрушечные автомобили, расположенные рядом с нами, все же меньше, чем настоящие автомобили, находящиеся на стоянке вдалеке от нас. Еще более потрясающий факт связан с тем, что мы можем делать удивительно хорошие оценки размера объекта при изменении расстояния до него. Люди осуществляют это, основывая свою оценку размера объекта как на размере ретинального изображения, так и на воспринимаемой величине расстояния. Если информация, необходимая для оценки расстояния, убирается, то эффект константности размера ослабевает и может даже исчезнуть. Вместе с тем, поскольку изображение объекта известного размера на сетчатке может служить определенной подсказкой для оценки расстояния до него. Эти факты весьма обыденны. Обсудим, однако, что они значат для восприятия робота. Восприятие сложных сцен по необходимости является процессом вероятностного вывода, основанного на имеющейся в зрительном образе информации и на предварительном знании определенных возможных свойств данной сцены. Это означает, что восприятие связано не только со сложной задачей обработки данных, но также с задачей информационного поиска. Как же можно проводить необходимые вычисления, если скорость получения входной информации очень высока?

Однако, конечно же, зрение возможно. Одна из причин этого состоит в том, что зрительный образ в значительной степени избыточен как в пространстве, так и во времени. Если известна яркость в некоторой точке зрительного образа, то значения яркости в соседних точках можно предсказать, если только рассматриваемая точка не находится на границе объекта или рядом с ней. Края изображения представляют собой совокупности точек, окрестности которых требуют тщательной обработки. Далее, когда число возможных объектов, предназначенных для идентификации, ограничено, требуется только очень грубая информация о границах. Для иллюстрации рассмотрим рис. 13.2. Чье это изображение — собаки, кошки или лошади? Скорее всего мы увидим в нем кошку. Фигура была получена линейной аппроксимацией границ изображения кошки на фотоснимке (Эттнив, 1954). Следует обратить внимание на два момента в этом примере. Во-первых, изображение не „очевидно" является кошкой, до тех пор пока вы не познакомились с перечнем возможных альтернатив. Во-вторых, если заданы эти варианты, то для идентификации требуется лишь самая грубая информация о краях фигуры.

Рис. 13.2 иллюстрирует пространственную избыточность. Временная избыточность еще значительнее по той простой причине, что мы живем в непрерывном мире. До тех пор, пока скорость поступления информации от камеры к ЭВМ велика по сравнению с движением объектов в окружающей среде, имеется возможность предсказывать большинство зрительных образов в момент по тому, что мы знали о нем в момент

Рис. 13.2. Кошка по Эттниву.

Поэтому второй путь экономии затрат по обработке информации заключается в том, чтобы проводить подробный анализ зрительного образа только тогда, когда этот образ существенно изменился по сравнению с предыдущим шагом.

Рис. 13.3. Схема машины зрительного восприятия.

Фактически наше обсуждение является наброском воспринимающей машины, схематически показанной на рис. 13.3. Машина состоит из четырех основных частей:

(1) Входной препроцессор получает изображение. Этот препроцессор состоит из набора локальных операторов, сглаживающих входные данные, обнаруживающих края предметов в изображении и аппроксимирующих эти края прямыми. Такие локальные операторы играют роль детекторов признаков, упоминавшихся нами ранее

при обсуждении распознавания образов (гл. 8). Локальные операторы могут функционировать параллельно, независимо друг от друга, так что полное время, требуемое для этого шага, ограничено только временем работы самого медленного оператора. Поскольку препроцессор относительно независим, он может обрабатывать предъявленный образ, в то время как остальные части машины работают с предварительно принятыми образами.

(2) Компаратор сопоставляет выходную информацию детектора признаков с его предыдущими выходными данными для того, чтобы определить, были ли какие-нибудь значительные изменения, и если да, то где. Определение „значительности" может меняться, что зависит от предыдущих идентификаций в сценах. Если не произошло значительных изменений, то компаратор просто записывает на месте старых данных, полученных от детектора признаков, новые.

(3) Когда происходит значительное изменение, компаратор прерывает работу анализатора. Анализатор представляет собой весьма сложное устройство, характеризуемое значительным временем обработки данных, поступающих от детекторов признаков. Анализатор также имеет доступ к памяти, в которой содержится информация, описывающая типы предметов и объектов, которые чаще встречаются. Полезно интерпретировать анализатор как разновидность устройства, реализующего бейесовское решение. Учет каждого из признаков изображения можно рассматривать как эксперимент, результат которого меняет правдоподобие выбора определенной сцены в качестве объяснения этого изображения. Имеющаяся база данных обеспечивает необходимые вероятностные меры как априорного правдоподобия сцены, так и правдоподобия того, что некоторое наблюдаемое изображение порождается данным объектом. Отметим, что это не означает, что память должна содержать исчерпывающую информацию, определяющую этот предмет и полученную от рассмотрения каждого возможного объекта со всех возможных направлений. Все, что в памяти должно быть — это программа для вычисления изображения, которое было бы получено в результате наблюдения определенного объекта с некоторой точки.

(4) После того как анализатор выбирает некоторую сцену в качестве интерпретации имеющегося у машины изображения, синтезатор вычисляет изображение, которое бы получилось от этой сцены. Это изображение сопоставляется с реальным изображением, получившимся после обработки его препроцессором. Интерпретация анализатора принимается, если сопоставление достаточно точное.

Эта модель представляет собой только набросок очень сложного процесса. Для построения полной модели зрения пришлось бы включить в нее обратные связи между анализатором и препроцессором и значительно углубиться в детали того, что компаратор должен считать важным изменением в образе. Также необходимо было бы учесть, насколько хорошо полученная модель соответствует

известным фактам о человеческом зрении. Для наших целей это не потребуется. Представленная модель (рис. 13.3) достаточна для обсуждения особенностей машинного зрения.

<< Предыдущий параграф Следующий параграф >>
Оглавление