Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Поиск стратегии
Поиск стратегии

Рассмотрим следующее задание: даны две программы игры в очко8; необходимо определить, какая из них лучше. Один из способов выполнения этого задания состоит в организации игры каждой программы против стандартной программы, "сдающей карты", в течение определенного количества раздач, с последующим сравнением выигрышей этих программ. Но этот подход связан с определенными проблемами, поскольку, как уже было сказано, выигрыш каждой программы изменяется в широких пределах в зависимости от того, получала ли она после каждой раздачи хорошие или плохие карты. Очевидным решением является заблаговременная выработка определенного количества раздач и множества карт, выдаваемых на руки. Благодаря этому устраняется ошибка измерения, связанная с различиями в полученных картах. Именно эта идея лежит в основе алгоритма Pegasus [1134]. Такой алгоритм является применимым в таких проблемных областях, для которых предусмотрен эмулятор, позволяющий повторно вырабатывать "случайные" результаты действий. Алгоритм функционирует по принципу заблаговременного формирования N последовательностей случайных чисел, каждая из которых может использоваться для прогона одного варианта опробования любой стратегии. Поиск стратегии осуществляется путем оценки каждой потенциальной стратегии с помощью одного и того же множества случайных последовательностей для определения результатов действия. Можно показать, что количество случайных последовательностей, требуемых для обеспечения качественной оценки значения любой стратегии, зависит только от сложности пространства стратегий, а не от сложности соответствующей проблемной области. Алгоритм Pegasus использовался для разработки эффективных стратегий в нескольких проблемных областях, включая автономный полет вертолета (рис. 21.7).

Рис. 21.7. Наложение изображений автономно управляемого вертолета, выполняющего очень сложный маневр инос в круге". Вертолет совершает полет под управлением стратегии, разработанной алгоритмом поиска стратегии Pegasus. Модель эмулятора была разработана путем наблюдений за результатами различных управляющих манипуляций реального вертолета; после этого алгоритм в течение одной ночи выполнял прогон на этой модели эмулятора. Был разработан целый ряд контроллеров для различных маневров. Во всех случаях достигнутая производительность была намного выше по сравнению с производительностью опытного пилота-человека, использующего дистанционное управление (фотография приведена с разрешения Эндрю Энджи (Andrew Ng))