Главная > Интеллектуальные системы > Системы искусственного интеллекта
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

9.3. Обучение робота полезным действиям. Система STRIPS

Элементарные операции (или операторы) в окружающей робота среде вначале описываются как тройки списков:

• Первый список содержит условия, при которых может выполняться каждая операция.

• Второй и третий списки уточняют факты, которые должны быть соответственно изъяты или добавлены к описанию среды,

если робот действительно использует рассматриваемую операцию. Необходимые модификации производятся в системе STRIPS с помощью процедуры доказательства теорем, основан ной на методе резолюции (гл. 3) (рис. 9.5).

Рис. 9.5. Пример описания элементарной операции в системе STRIPS.

Обучение проводится каждый раз, как только система эффективно решает задачу. Она обращается к последовательности использованных элементарных операций, чтобы попытаться извлечь дополнительную информацию. План, оказавшийся успешным через шагов, предположительно будет образцом для достижения аналогичных целей, образцом, который система STRIPS отбирает для дальнейшего использования. Последовательность таких операторов сначала группируется в треугольную таблицу (рис. 9.6).

По построению в этой таблице на пересечении строки и столбца располагаются факты, которые добавляются оператором и сохраняются до момента применения оператора Если теперь в строке встречается описание, которое совпадает с описанием цели в некоторой новой задаче, достаточно извлечь на последовательности нужную подпоследовательность. Половина работы уже сделана, и — последний используемый

Рис. 9.6. Последовательности операторов в системе STRIPS.

оператор. Поднимаясь по таблице, теперь достаточно определить первый оператор условия которого удовлетворяют новой среде.

Последовательность может быть непосредственно использована для достижения новой цели. Это макродействие соответствует, например, тому, чтобы “взять объект О, бткрыть дверь, зажечь свет, подняться по лестнице, положить О, выключить свет, конец”; робот научился этому действию и его запомнил.

Другая программа, разработанная Уотерманом для игры в покер, обучается с помощью апостериорного анализа своего собственного опыта.

<< Предыдущий параграф Следующий параграф >>
Оглавление