Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Введение
Введение

Агент, действующий с учетом полезности, для принятия решений должен также иметь модель среды, поскольку он должен знать, в какие состояния приведут его выполненные им действия. Например, для того чтобы программа игры в нарды могла использовать функцию оценки для нард, она должна иметь информацию о том, каковыми являются допустимые ходы и как они влияют на позицию в игре. Это — единственный способ, позволяющий применить функцию полезности к результирующим состояниям. Агент, действующий по принципу Q-обучения, с другой стороны, может сравнивать значения, характеризующие доступные ему варианты действий, без необходимости знать их результаты, поэтому ему не требуется модель среды. Тем не менее агенты, действующие по принципу Q-обучения, не могут прогнозировать будущую ситуацию, поскольку не имеют информации о том, к чему приведут их действия; это может серьезно ограничить способность таких агентов к обучению, как будет описано ниже.

Изложение материала этой главы начинается в разделе 21.2 с описания пассивного обучения, в котором стратегия агента остается неизменной, а задача состоит в том, чтобы определить с помощью обучения полезности состояний (или пар "состояние-действие"); для этого может также потребоваться определение с помощью обучения модели среды. В разделе 21.3 рассматривается активное обучение, в ходе которого агент должен также определить, что следует делать. Принципиальной проблемой является исследование среды: агент должен проводить в своей среде максимально возможное количество экспериментов, для того чтобы определить, как следует в ней действовать. В разделе 21.4 показано, что агент может использовать индуктивное обучение, чтобы как можно быстрее обучиться на своем опыте. В разделе 21.5 рассматриваются методы определения с помощью обучения непосредственных представлений стратегий в рефлексных агентах. Для освоения материала данной главы крайне важно понимание тематики марковских процессов принятия решений (см. главу 17).