Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Обучение с учетом временной разницы
Обучение с учетом временной разницы

Каждая корректировка, внесенная алгоритмом ADP, с точки зрения пользователя алгоритма TD может рассматриваться как результат "псевдоэксперимента", полученный путем моделирования в текущей модели среды. Подход, предусмотренный в алгоритме TD, можно дополнить в целях использования модели среды для выработки результатов нескольких псевдоэкспериментов, иначе говоря, переходов, возможность осуществления которых агент TD может допустить согласно его текущей модели. В ответ на каждый наблюдаемый переход агент TD может вырабатывать большое количество воображаемых переходов. Благодаря этому результирующие оценки полезностей TD будут все больше и больше аппроксимировать соответствующие оценки ADP, разумеется, за счет увеличения продолжительности времени вычислений.

Аналогичным образом могут создаваться все более эффективные версии алгоритма ADP путем непосредственной аппроксимации алгоритмов для итерации по значениям или итерации по стратегиям. Напомним, что полная итерация по значениям может быть трудновыполнимой, когда количество состояний велико. Однако многие этапы корректировки являются чрезвычайно малыми. Одним из возможных подходов, применимых для быстрой выработки достаточно качественных ответов, является ограничение количества корректировок, внесенных после каждого наблюдаемого перехода. Можно также использовать какую-то эвристику для ранжирования возможных корректировок, с тем чтобы в дальнейшем осуществлять только наиболее значимые из них. Эвристика, предусматривающая выметание с учетом приоритетов, позволяет предпочесть вариант с внесением корректировок в состояния, возможные преемники которых уже подвергались большим корректировкам в их собственных оценках полезностей. Приближенные алгоритмы ADP, в которых используются подобные эвристики, обычно обеспечивают обучение примерно с таким же быстродействием, как и полные алгоритмы ADP, с точки зрения количества обучающих последовательностей, но могут оказаться на несколько порядков величины более эффективными с точки зрения объема вычислений. Это дает возможность применять такие алгоритмы для обработки пространств состояний, намного превышающих по размерам те, которые являются приемлемыми для полного алгоритма ADP. Приближенные алгоритмы ADP имеют еще одно дополнительное преимущество: на ранних этапах обучения в новой среде модель среды τ часто далека от правильной, поэтому нет смысла слишком точно вычислять функцию полезности для согласования с ней. Приближенный алгоритм позволяет использовать минимальную величину корректировки, которая уменьшается по мере того, как модель среды становится все более точной. Это позволяет устранить очень продолжительные итерации по значениям, которые могут возникать на ранних этапах обучения из-за больших изменений в модели.