Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Введение
Введение

Во многих сложных проблемных областях обучение с подкреплением является единственным осуществимым способом, с помощью которого можно провести обучение некоторой программы, чтобы она могла действовать с высокой производительностью. Например, в случае ведения игр для человека является очень трудной задачей предоставление точных и согласованных оценок большого количества позиций, что требуется для определения в процессе обучения функций оценки непосредственно из примеров. Вместо этого программе можно сообщать, когда она выиграла или проиграла, а сама программа может использовать такую информацию для определения с помощью обучения такой функции оценки, которая предоставляла бы достаточно точные оценки вероятности выигрыша из любой конкретной позиции. Аналогичным образом, чрезвычайно трудно запрограммировать агента так, чтобы он научился вести вертолет; но, предоставляя соответствующие отрицательные вознаграждения за столкновение, болтанку или отклонение от заданного курса, можно дать агенту возможность научиться летать на вертолете самостоятельно.

Обучение с подкреплением может рассматриваться как задача, охватывающая всю тематику искусственного интеллекта: агента помещают в какую-то среду и обязывают его обучиться успешно действовать в ней. Поэтому, чтобы объем этой главы не вышел за пределы разумного, в ней будут рассматриваться только простые варианты среды и простые проекты агента. По большей части предполагается, что среда является полностью наблюдаемой, поэтому информация о текущем состоянии поступает с результатами каждого восприятия. С другой стороны, считается, что агент не знает, по каким принципам действует среда или какими являются результаты его действий, поэтому допускается наличие вероятностных результатов действий. В этой главе речь пойдет о трех перечисленных ниже проектах агентов, которые были впервые представлены в главе 2.

•    Агент, действующий с учетом полезности, определяет с помощью обучения функцию полезности состояний и использует ее для выбора действий, которые максимизируют ожидаемую полезность результата.

•    Агент, действующий по принципу Q-обучения, определяет с помощью обучения функцию "действие-значение", или Q-функцию, получая сведения об ожидаемой полезности выполнения данного конкретного действия в данном конкретном состоянии.

• Рефлексный агент определяет с помощью обучения стратегию, которая непосредственно отображает состояния в действия.