Главная > Интеллектуальные системы > Адаптация сложных систем
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

5.1.2. Алгоритмы-автоматы

Прежде всего введем понятие штрафа с, используемое в теории обучения автоматов. Будем считать, что входом автомата является сигнал, характеризующий эффективность его функционирования в данный момент времени. Этот сигнал имеет двоичный характер:

где соответствует позитивной реакции среды (объекта), а — негативной.

Естественно связать этот штраф с изменением минимизирумого критерия функционирования объекта. Это можно сделать следующим образом:

где

— управление, реализованное в объекте на шаге

Так как оценка приращения критерия (5.1.7) происходит в обстановке значительной неопределенности о состоянии среды и оператора объекта, влияющих на эту оценку, то удобно воспользоваться рекуррентным сглаживанием:

где — коэффициент сглаживания.

В этом случае оценка (5.1.7) принимает вид

Теперь рассмотрим автомат с целесообразным поведением. Будем называть его поведение целесообразным, если средний штраф при функционировании автомата меньше половины, т. е.

Иначе говоря, автомат за свои действия штрафуется реже, чем поощряется что, очевидно, и характеризует целесообразность его поведения. В терминах адаптации (5.1.10) означает, что оценка приращения критерия качества чаще отрицательна, чем положительна.

Заметим, что это определение целесообразности не более чем эвристика и можно легко представить ситуацию, когда при выполнении условия (5.1.10) поведение будет нецелесообразным — например, когда положительные приращения критерия (5.1.7) по модулю значительно больше отрицательных. Именно такая ситуация имеет место в окрестности экстремума критерия, что обычно затрудняет реализацию точной адаптации и требует введения специальных мер типа увеличения объема накопления и т. д. Однако в большинстве случаев эвристика (5.1.10) работает вполне эффективно, чем мы и воспользуемся.

Рассмотрим алгоритм адаптации как автомат, т. е. пятерку вида

Здесь С — алфавит входов (это двоичный сигнал штрафа с

— алфавит выходов автомата, который образуется заданными альтернативами; — множество состояний автомата:

— функция переходов от одного состояния к другому:

где новое состояние, в которое переходит автомат из состояния при входе с; и - функция выходов, определяющая выход автомата по его состоянию и входу с:

Таким образом, для определения автоматного алгоритма адаптации объекта необходимо знать:

1) множество состояний (5.1.12);

2) функцию переходов (5.1.13);

3) функцию выходов (5.1.14).

Разные способы задания этих факторов и отличают различные автоматные алгоритмы адаптации. Рассмотрим два из них.

<< Предыдущий параграф Следующий параграф >>
Оглавление