Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Поиск стратегии
Поиск стратегии

Одним из недостатков представления стратегий в том виде, как показано в уравнении 21.13, является то, что в случае дискретных действий стратегия не является непрерывной функцией своих параметров7. Это означает, что существуют такие значения Θ, при которых бесконечно малые изменения θ вызывают резкое переключение стратегии с одного действия на другое. Вследствие этого могут также происходить не являющиеся непрерывными изменения значения стратегии, в результате чего поиск на основе градиента становится затруднительным. По этой причине в методах поиска стратегии часто используется стохастическое представление стратегии, которое задает вероятность выбора действия а в состоянии s. Одним из широко применяемых представлений такого типа является функция softmax:

Функция softmax становится почти детерминированной, если одно действие намного лучше по сравнению с другими, но она всегда позволяет получить дифференцируемую функцию от θ, поэтому ценность стратегии (которая связана непрерывной зависимостью с вероятностями выбора действий) определяется дифференцируемой функцией θ.

Теперь рассмотрим методы улучшения стратегии. Начнем с простейшего случая — детерминированной стратегии и детерминированной среды. В этом случае задача вычисления стратегии становится тривиальной — просто выполняется эта стратегия и регистрируются накопленные вознаграждения; полученные данные определяют ценность стратегии ρ (θ). В таком случае улучшение стратегии представляет собой стандартную задачу оптимизации, как описано в главе 4. В частности, можно проследить за вектором градиента стратегии, при условии, что значение ρ (θ) является дифференцируемым. Другой вариант состоит в том, что можно проследовать за эмпирическим градиентом путем восхождения к вершине, т.е. вычисления изменений в стратегии в ответ на небольшие приращения в значениях каждого параметра. При соблюдении обычных предосторожностей такой процесс сходится к локальному оптимуму в пространстве стратегий.