Главная arrow книги arrow Копия Глава 17. Принятие сложных решений arrow Оптимальность в задачах последовательного принятия решений
Оптимальность в задачах последовательного принятия решений

В примере задачи MDP (см. рис. 17.1) производительность агента определялась по сумме вознаграждений, связанных с посещенными состояниями. Такой выбор показателя производительности нельзя назвать произвольным, но он не является также единственно допустимым. В данном разделе рассматриваются возможные варианты показателей производительности, т.е. варианты способов определения функции полезности по историям пребывания в среде, которые могут записываться как. Этот раздел основан на идеях, изложенных в главе 16, и является довольно формальным; основные его пункты подытожены в конце.

Первый вопрос, на который нужно найти ответ, состоит в том, существует ли конечный горизонт или бесконечный горизонт для принятия решений. Наличие конечного горизонта означает, что есть такое фиксированное время N, после которого все теряет смысл, — так сказать, игра все равно окончена. Таким образом, для всех k>0. Например, предположим, что агент начинает свое движение с квадрата (3,1) в мире с размерами 4x3, показанном на рис. 17.1, а также допустим, что №3. В таком случае, чтобы получить хоть малейший шанс достичь состояния +1, агент должен направиться непосредственно к нему, и оптимальное действие состоит в том, чтобы двигаться в направлении up. С другой стороны, если N=100, то запас времени настолько велик, что можно выбрать безопасный маршрут в направлении Left. Поэтому при наличии конечного горизонта оптимальное действие в каждом конкретном состоянии со временем может измениться. Принято считать, что оптимальная стратегия при наличии конечного горизонта является нестационарной. С другой стороны, если нет заданного предела времени, то нет смысла вести себя по-разному в одном и том же состоянии в разное время. Поэтому оптимальное действие зависит только от текущего состояния и оптимальная стратегия является стационарной. Таким образом, стратегии для случая с бесконечным горизонтом проще по сравнению с теми, которые применяются в случае с конечным горизонтом, и в данной главе будет в основном рассматриваться случай с бесконечным горизонтом. Обратите внимание на то, что понятие "бесконечного горизонта" не обязательно означает, что все последовательности состояний являются бесконечными; оно просто говорит о том, что для их выполнения не устанавливаются фиксированные сроки. В частности, в любой задаче MDP с бесконечным горизонтом могут существовать конечные последовательности состояний, содержащие терминальное состояние.