Вычислительные сети, теория и практика.

BC/NW 2007, №1, (10) :18.1

МЕТОДЫ ПОДКРЕПЛЁННОГО ОБУЧЕНИЯ ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ РЕАЛЬНОГО ВРЕМЕНИ

И.Ю. Подогов,. А.П. Еремеев

(Москва, Московский энергетический институт (технический университет), Россия)

Описываются методы подкреплённого обучения, которые могут быть использованы для поиска решения в системах поддержки принятия решения реального времени (СППР РВ) в условиях неполноты и неопределённости, на основе «плоского» и иерархического подхода.

Подкреплённое обучение представляет класс задач, в которых автономный агент, действуя в определенной среде, должен найти оптимальную стратегию (политику) взаимодействия с ней. Информация для обучения автономного агента предоставляется в форме “награды” (простого скалярного платежа), которая имеет определенное количественное значение для каждого перехода среды из одного состояния в другое. Никакой другой дополнительной информации для обучения агенту не предоставляется. Задача агента, таким образом, сводится к максимизации суммарного платежа (возможно, дисконтированного со временем). При этом вполне возможна ситуация, в которой восприятие агента не позволяет точно определить текущее состояние среды, что приводит к более сложной задаче принятия решений в условиях неопределённости. Задачи такого рода являются центральными в искусственном интеллекте, теории управления и исследовании операций.

В работе внимание сфокусировано на случае, когда модель среды неизвестна агенту. В этих обстоятельствах агент должен применить некоторый метод подкреплённого обучения, напрямую взаимодействуя со средой, чтобы научиться действовать наилучшим образом в условиях множественных форм неопределённости.

В работе вводится понятие частично обозримых марковских процессов принятия решения и модель взаимодействия агента со средой в них. Рассматриваются существующие методы подкреплённого обучения для агента без предварительного знания модели окружающей среды. Формулируются требования для методов подкреплённого обучения для работы в режиме реального времени и описываются наиболее соответствующие данным требованиям методы. Рассмотрены такие приёмы улучшения скорости и качества обучения, как:

- коннекционистское подкреплённое обучение;

- обучение на основе информации о предыстории процесса (методы для агента с кратковременной памятью);

- иерархический подход, позволяющий использовать подкреплённое обучение в сложноструктурированных задачах большой размерности;

- двухфазное обучение для передачи агенту имеющейся информации на ранних стадиях обучения.

Работа включает себя рассмотрение архитектуры и реализацию программного комплекса, предназначенного для использования в составе СППР РВ для управления объектом в режиме реального времени, а также реализацию двух подключаемых модулей подкреплённого обучения для работы в составе этого комплекса либо вне его.

Литература

1. Вагин В.Н., Еремеев А.П. Некоторые базовые принципы построения интеллектуальных систем поддержки принятия решений реального времени. Изв. РАН. Теория и система управления, 2001, №6, с.114-123

2. Еремеев А.П., Тихонов Д.А., Шутова П.В. Поддержка принятия решений в условиях неопределённости на основе немарковской модели. Изв. РАН. Теория и система управления, 1999, №5, с.87-93

3. R. Sutton and A. Barto. Reinforcement Learning: An Introduction. MIT Press, 1998, 432 p.

4. N. Hernandez-Gardiol, S. Mahadevan. Hierarchical memory-based reinforcement learning. // Advances in Neural Information Processing Systems 13, 2000, p. 1047-1053.