Главная > Интеллектуальные системы > Искусственный интеллект (Э. Хант)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

13.1.2. Программа INTERPRET

INTERPRET (Фальк, 1972) представляет собой программу машинного зрения, предназначенную для использования ее в изучении машиноуправляемой системы глаз — рука. Назначение этой программы ограничивается анализом зрительных сцен, состоящих из кубиков известного размера и формы с плоскими гранями. Такое ограничение делает программу недостаточно общей, однако позволяет ей осуществлять разбиение весьма сложных сцен. Программа к тому же представляет специальный интерес, так как может работать в ситуациях, когда имеются дефекты в линиях изображения.

На первом этапе работы программы NTERPRET дискретная входная информация от телевизионной камеры преобразуется процедурой выделения краев в контурное изображение. Точность полученного изображения будет зависеть от контрастности между светлыми и темными областями в наблюдаемой сцене. Слабая контрастность может стать причиной ошибочного добавления или удаления линий. На рис. 13.10, а, б показан пример реальной сцены, на которой один блок расположен перед другим, большим блоком, однако вследствие недостаточной контрастности две линии в изображении первого блока потеряны.

После того как получено контурное изображение, программа INTERPRET изучает узлы при помощи способа, аналогичного описанному в предыдущем разделе, для того чтобы отнести края и грани к определенным телам. Это осуществляется нахождением всех узлов, которые можно интерпретировать в качестве углов некоторого тела, и последующим отнесением соответствующих краев и граней к этому телу.

Рис. 13.10. Последовательные стадии анализа: а — изображение сцены со всеми видимыми краями в форме линий; б — неполное изображение сцены, полученное по входным данным; в — два разных предмета, получившиеся в результате отнесения к соответствующим объектам сцены разных граней (областей); г — полные изображения объектов, получившиеся в результате применения специальной процедуры завершения линий.

По завершении этого этапа программа INTERPRET будет способна разбить исходное изображение на объекты, каждый из которых соответствует одному из объектов в сцене. Однако получившиеся изображения объектов не обязательно будут завершенными (рис. 13.10, в). На этом же этапе система INTERPRET определит положение некоторых углов объектов в трехмерном пространстве и идентифицирует некоторые объекты как находящиеся на других объектах, используя простые предположения, что (а) объекты не могут висеть в пространстве и (б) если какой-то объект имеет горизонтальную границу не выше любой другой горизонтальной границы, то соответствующий край расположен на столе. Определение положения углов особенно полезно для INTERPRET, поскольку программа „знает“ размер кубиков в сцене и, таким образом, может

вычислить ожидаемое положение остальных углов, как только идентифицированы тип кубика и положение одного из углов.

Следующий шаг программы состоит в идентификации присутствующих в сцене тел. Сначала при помощи достаточно очевидных методов делается попытка достроить линии, а именно соединяются разорванные прямые и добавляются углы в местах пересечений продолженных прямых (рис. 13.11). Наконец, изображения отдельных предметов сравниваются с хранящимися изображениями известных объектов, наблюдаемых с разных точек. Принимается наиболее полно соответствующее изображение. Теперь программе INTERPRET известно, какие в рассматриваемой сцене находятся тела и где они расположены. В качестве проверки программа вычисляет контурное изображение, которое было бы получено в предиоложении, что соответствующая сцена и точка, с которой она рассматривается, идентифицированы правильно.

Рис. 13.11. Примеры простых случаев завершения линий.

Это изображение сравнивается с входным изображением, и если между ними отсутствуют серьезные различия, то соответствующая интерпретация принимается.

Система INTERPRET и другие подобные ей программы способны правильно анализировать весьма сложные сочетания кубиков. Работа программы INTERPRЕТ сама по себе к тому же выглядит вполне разумной в том смысле, что эта программа может дополнять отсутствующие во входной информации линии и края. На практике это очень важно, поскольку слабая контрастность значительно уменьшает точность телевизионного изображения сцены. Поэтому основная информация, поступающая на вход программы, может быть с ошибками. Недостатки подхода, использующегося в программе INTERPRET, сводятся к тому, что эта программа может работать только со специализированным внешним миром. Фальк сообщает, что для работы со сценами, состоящими из кубиков,

необходима большая и сложная программа. Если это так, то как можно ожидать работы с мирами, для предсказания в которых требуется на несколько порядков большие объемы знаний? Проблема не просто в том, что больше различных видов тел, но в том, что основные формы в реальном мире намного сложнее, чем использовавшиеся до сих пор. Например, включение в рассмотрение предметов с искривленными поверхностями намного бы усложнило соответствующий анализ, вместе с тем люди живут в мире, полном такого рода объектами.

В системе INTERPRET и других известных в настоящее время проектах машинного зрения предприняты попытки разными способами скопировать человеческий механизм зрения. Несмотря на то что это похвальная цель, она все же, возможно, слишком претенциозная. Проблема не в том, что человеческую зрительную систему нельзя скопировать при существующем уровне техники, а в том, что для этого, по-видимому, необходимо иметь человеческую память. Некоторые исследователи предположили, что человеческая память состоит из большого числа элементов, которые становятся активными, когда обнаруживают „свои сигналы" в наблюдаемом входном сигнале (Хант, 1973; Джон, 1972). С точки зрения такой памяти человеческое зрение может позволить себе „пассивное наблюдение", при котором поступающая в мозг предварительно обработанная информация от глаза может вызвать хранящуюся в нем информацию. Учитывая имеющуюся технологию построения памяти вычислительных машин, по-видимому, более подходящим для конструкторов роботов было бы приспособить специальную вычислительную машину к активному сканирующему устройству, которое бы излучало физический сигнал и затем анализировало полученный ответ. Вероятно, аналогией такого устройства должен быть в биологических системах сонар летучей мыши, а не человеческий глаз. Этот подход выглядит особенно привлекательным для ситуаций, в которых машина должна просматривать „видимый мир“, содержащий только ограниченную совокупность важных для нее целевых объектов.

<< Предыдущий параграф Следующий параграф >>
Оглавление