Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Исследование среды
Исследование среды

Задача с n-руким бандитом — это формальная модель реальных задач во многих жизненно важных областях, таких как принятие решения о выделении годового бюджета на исследования и разработки по искусственному интеллекту. Каждая рукоятка соответствует определенному действию (такому как выделение 20 миллионов долларов на подготовку новых учебников по искусственному интеллекту), а вознаграждение за подтягивание к себе такой рукоятки соответствует прибыли, полученной от выполнения соответствующего действия (в данном случае — просто колоссальной). Исследование среды, будь то исследование перспектив нового научного направления или зондирование нового товарного рынка, является рискованным, дорогостоящим и связано с неопределенными вознаграждениями; с другой стороны, полный отказ от проведения исследований означает, что не удастся обнаружить новые сферы деятельности, которые могут оказаться прибыльными.

Чтобы правильно сформулировать задачу с n-руким бандитом, необходимо точно определить, что подразумевается под оптимальным поведением. Большинство определений, приведенных в литературе, основано на предположении, что цель состоит в максимизации ожидаемого суммарного вознаграждения, полученного в течение всего срока существования агента. В этих определениях требуется, чтобы ожидаемое вознаграждение оценивалось по всем возможным мирам, в которых может оказаться агент, а также по возможным результатам каждой последовательности действий в любом конкретном мире. В данном случае "мир" определяется моделью перехода T(s,a, s' ). Таким образом, для того чтобы действовать оптимальным образом, агент должен знать распределение априорных вероятностей по всем возможным моделям. Возникающие в конечном итоге задачи оптимизации обычно являются крайне трудно разрешимыми.

В некоторых случаях (например, когда вознаграждение, получаемое от игры на каждом автомате, является независимым и используются обесцениваемые вознаграждения) существует возможность рассчитать индекс Гиттинса для каждого игорного автомата [561]. Этот индекс представляет собой функцию, параметрами которой являются только количество игр, проведенных на игорном автомате, и сумма полученного выигрыша. Индекс для каждого автомата показывает, насколько оправданы дополнительные затраты денег на продолжение игры с учетом комбинации ожидаемой прибыли и ожидаемой стоимости информации. Выбор автомата с наибольшим значением индекса позволяет найти оптимальную стратегию исследования среды. К сожалению, до сих пор не было обнаружено ни одного метода, позволяющего распространить понятие индексов Гиттинса на проблематику задач последовательного принятия решений.