Главная > Интеллектуальные системы > Искусственный интеллект (Э. Хант)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

7.2.3. Критика грамматик изображений

Грамматики изображений привлекают исследователя, занимающегося вычислительными машинами, тем, что они дают способ, которым сложные категории можно свести к известному формализму. Такие ситуации могут оказаться соблазнительной ловушкой для любой дисциплины. Вопрос не в том, применимы ли формальные лингвистические методы в обработке изображений; из теории вычислений мы знаем, что да. Вопрос состоит в следующем: „Когда полезно применять понятия лингвистики?" Ясно, что в некоторых случаях грамматики изображений действительно проясняют различия между классами изображений. Такие ситуации приводились в наших примерах. Но чем характеризуются ситуации, в которых мы не рекомендовали бы использовать лингвистический анализ?

Основное допущение лингвистики состоит в том, что наше понимание и способность воспринимать изображения будут сильнее, если мы будем знать процесс, которым были порождены исследуемые изображения. Ватанабе (1971) приводит примеры классов изображений, для которых это не так. Рассмотрим классы изображений, представленные на рис. 7.7.

Класс а — это множество изображений, порожденных выбором в качестве начальной точки произвольной цифры в последовательности

и помещением в первый и следующие кружки знака X тогда и только тогда, когда соответствующая цифра — 5 или более. Класс б порожден аналогичным приписыванием х кружкам на основе таблицы случайных чисел. Знание порождающих правил очень мало помогает нам понять структуру этих изображений. Можно возразить, сказав, что это надуманный пример. Но это не так, мы лишь подчеркнули общее положение. Во многих интересных случаях изображения определяются сложными статистическими зависимостями между компонентами, а не отношениями в том смысле, как этот термин употребляется в грамматическом анализе.

Рис. 7.7. Примеры классов, для которых порождающие правила бесполезны: а — изображения, порожденные с помощью ; б — изображения, порожденные таблицей случайных чисел.

Прекрасным примером тому служат изображения, классификация которых зависит от восприятия глубины. Одна из главных подсказок при восприятии глубины — изменение градиента текстуры фона в изображении (Гибсон, 1950). В случае стереоскопических изображений решающие статистические зависимости между точками на плоскости изображения значительно сложнее (Юлеш, 1970), хотя и сохраняется тот же принцип. Трудно представить себе, какого сорта грамматика могла бы учесть всю эту информацию.

Второй аспект, который покажется психологам хорошо знакомым, заключается в том, что многие изображения группируются по семантическим, а не синтаксическим правилам. Возможно, наиболее яркий пример — различные иллюзии восприятия. Скажем, можно классифицировать очень разные образы на сетчатке глаза как „изображения коробки длиной около 6 футов", опираясь на наше знание о характеристиках различных объектов реального мира (размер, форма и т. д.), изображенных вместе с коробкой. Например, можно

Рис. 7.8. (см. скан) Мусульманские орнаменты. Фазу можно изменить, но компоненты из a и б или из в и г нельзя поэлементно менять.

распознать проекции прямоугольной коробки, рассматриваемой под разными углами. Никакой чисто синтаксический подход не может осуществить такую классификацию, поскольку она основана на нашем знании форм предметов и оптики, а не на анализе информации, содержащейся собственно в изображении. Этот аспект особенно важен в анализе сцен, который мы подробнее изложим в части IV этой книги.

Не все полезные правила можно сформулировать в виде грамматики непосредственно составляющих. Одна из особенностей такой грамматики состоит в том, что подстановки эквивалентных компонент не изменяют характера цепочки. Это позволяет синтаксически управляемому транслятору распознавать, что — арифметические выражения. Однако в некоторых классах двумерных образов такие подстановки недопустимы. Для иллюстрации этого Ватанабе использует мусульманский орнамент (рис. 7.8). Допускается любая последовательность повторяющихся фигур (при условии, что удовлетворяются и некоторые другие ограничения), но подстановка компонент не допускается. Несколько более математический пример основан на определении группы операций. Фигуры

принадлежат классу фигур, отображающихся при повороте на 90° в самих себя. Как это можно выразить грамматически?

Приведенные возражения можно считать теоретическими, Однако возникает ряд практических задач, которые должны быть разрешимы в любом конкретном применении. Уже упоминалась проблема, связанная с чрезмерной сложностью вычислений. Еще более важная проблема касается определения терминальных элементов. Строго говоря, это не лингвистическая проблема, поскольку в формальной лингвистике существование известного терминального алфавита предполагается. На практике же это может оказаться самым трудным этапом в процессе анализа. Около 300 из 400 работ, упомянутых Розенфельдом (1969а), посвящены проблеме определения признаков! Другая практически важная проблема — выбор критерия для выяснения, присутствует ли в изображении конкретная компонента или отношение. В наших рисунках домов эта проблема игнорировалась; ясно, что крыша или расположена на стене или нет Родители и учителя (обычно) распознают дома, нарисованные первоклассниками, хотя расположение крыши относительно стены может быть различным. Подобные неопределенности возникают, когда приходится изучать зашумленные аэрофотоснимки или когда между объектами, не соседствующими в изображении, можно установить примитивные отношения.

Наличие в исходной информации шума само по себе не ставит неразрешимой проблемы. Можно просто с помощью какого-нибудь варианта стохастической грамматики (см., например, Свейн и Фу, 1972) распознать, что квадраты обычно рисуются в виде , но могут и О. Остается проблема практической реализации, поскольку стохастические грамматики требуют гораздо более сложных алгоритмов разбора. К тому же одиночное изображение можно с разными вероятностями отобразить в несколько правильно построенных выражений. В настоящее время нет еще ясного представления о трудностях, возникающих в классификации образов вообще и, в частности, в применении к грамматическому выводу.

В заключение отметим безусловную важность грамматического подхода в классификации изображений. Это прекрасный способ решения некоторых задач, в том числе многих из тех, которые плохо представляются в классификации векторов. Однако верно и обратное; статистические различия особенно часто удается учесть, применяя методы классификации векторов. Наконец, для ряда примеров обработки изображений не подходят ни грамматические, ни векторные процедуры классификации. Эта область ожидает новых идей.

<< Предыдущий параграф Следующий параграф >>
Оглавление