Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Пассивное обучение с подкреплением
Пассивное обучение с подкреплением

Для того чтобы упростить изложение, начнем с описания случая пассивного обучающегося агента, в котором используется представление на основе состояний в полностью наблюдаемой среде. При пассивном обучении стратегия агента π является неизменной; это означает, что в состоянии s он всегда выполняет действие π (s). Цель агента состоит в том, чтобы определить с помощью обучения, насколько успешной является эта стратегия, т.е. определить с помощью обучения функцию полезности. В этом разделе в качестве примера будет использоваться мир 4x3, представленный в главе 17. На рис. 21.1 для этого мира показаны стратегия и соответствующие полезности. Очевидно, что задача пассивного обучения аналогична задаче оценки стратегии, которая является частью алгоритма итерации по стратегиям, описанного в разделе 17.3. Основное различие состоит в том, что пассивный обучающийся агент не знает модели перехода T(s, a, s ' ), которая определяет вероятность достижения состояния s' из состояния s после выполнения действия а; он также не знает функцию вознаграждения R (s), которая задает вознаграждение для каждого состояния.

Рис. 21.1. Описание рассматриваемой среды: а) стратегия π для мира 4x3; оказалось, что эта стратегия является оптимальной при вознаграждениях R(s) =-0. 04 в нетерминальных состояниях и при отсутствии обесценивания (а); полезности состояний в мире 4x3 с учетом стратегии π (б)

Агент выполняет в данной среде рад попыток, используя свою стратегию п. При осуществлении каждой попытки агент начинает с состояния (1,1) и испытывает некоторую последовательность переходов между состояниями до тех пор, пока не достигнет одного из терминальных состояний, (4,2) или (4,3). В результатах восприятий ему сообщается и текущее состояние, и вознаграждение, полученное в этом состоянии. Типичные попытки могут выглядеть примерно так:

Обратите внимание на то, что результаты восприятия каждого состояния сопровождаются нижним индексом с указанием полученного вознаграждения. Цель состоит в том, чтобы использовать эту информацию о вознаграждении для определения с помощью обучения ожидаемой полезности, связанной с каждым нетерминальным состоянием s. Определяемая полезность должна представлять собой ожидаемую сумму (обесцениваемых) вознаграждений, полученных, если агент придерживается стратегии π. Как и в уравнении 17.3, это соотношение записывается следующим образом:

(21.1)

Мы будем включать коэффициент обесценивания γ во все уравнения, приведенные в данной главе, но для мира 4x3 принято использовать значение γ=1.