Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Исследование среды
Исследование среды

На рис. 21.4 показаны результаты одной последовательности попыток для агента ADP, который следует рекомендациям по выбору оптимальной стратегии для модели, определяемой с помощью обучения, на каждом этапе. Как оказалось, агент не находит с помощью обучения истинные полезности или истинную оптимальную стратегию! Вместо этого происходит то, что после 39-й попытки агент находит стратегию, позволяющую достичь вознаграждения +1 вдоль нижнего маршрута, проходящего через квадраты (2,1), (3,1), (3,2) и (3,3) (рис. 21.4). После проведения экспериментов с небольшими вариантами, начиная от 276-й попытки и дальше, агент постоянно придерживается этой стратегии, так и не определив с помощью обучения полезности других состояний и не найдя оптимальный маршрут через квадраты (1,2), (1,3) и (2,3). Авторы называют такого агента, действующего с помощью жадного алгоритма, просто жадным агентом. Повторные эксперименты показали, что поиски жадного агента очень редко сходятся в пределе к оптимальной стратегии для данной среды, а иногда сходятся к таким стратегиям, которые являются действительно устрашающими по своей неэффективности.

Как могло оказаться, что выбор оптимального действия приводит к неоптимальным результатам? Ответ состоит в том, что модель, определяемая с помощью обучения, не является такой же, как истинная среда; поэтому то, что оптимально в модели, определяемой с помощью обучения, может оказаться неоптимальным в истинной среде. К сожалению, агент не имеет информации о том, какова истинная среда, поэтому не может вычислить оптимальное действие для истинной среды. Так что же делать?

В проекте жадного агента не учтено то, что действия не только предоставляют вознаграждения в соответствии с моделью, определяемой в настоящее время с помощью обучения, но и вносят вклад в определение с помощью обучения самой истинной модели, влияя на полученные результаты восприятия. Совершенствуя эту модель, агент сможет получать большие вознаграждения не сразу же, а в будущем3. Поэтому агент должен искать компромисс между потреблением полученных результатов для максимизации своего вознаграждения (что отражается в его текущих оценках полезностей) и исследованием среды для максимизации своего долговременного благосостояния. Занимаясь исключительно потреблением полученных благ, агент рискует застрять в одной колее, а занимаясь исключительно исследованием для повышения уровня своих знаний, агент не получит пользы, если так и не внедрит эти знания на практике. В реальном мире человеку постоянно приходится решать, стоит ли продолжать беззаботное существование или нужно окунуться в неизвестность в надежде найти новые и лучшие условия жизни. Но чем большими знаниями он обладает, тем меньше нуждается в дальнейших исследованиях.