Главная arrow книги arrow Копия Глава 17. Принятие сложных решений arrow Марковские процессы принятия решений в частично наблюдаемых вариантах среды
Марковские процессы принятия решений в частично наблюдаемых вариантах среды

В описании марковских процессов принятия решений, приведенном в разделе 17.1, предполагалось, что среда является полностью наблюдаемой. При использовании этого предположения агент всегда знает, в каком состоянии он находится. Это предположение, в сочетании с предположением о марковости модели перехода, означает, что оптимальная стратегия зависит только от текущего состояния. А если среда является только частично наблюдаемой, то вполне очевидно, что ситуация становится гораздо менее ясной. Агент не всегда точно знает, в каком состоянии находится, поэтому не может выполнить действие π (s), рекомендуемое для этого состояния. Кроме того, полезность состояния s и оптимальное действие в состоянии s зависят не только от s, но и от того, насколько много агент знает, находясь в состоянии s. По этим причинам задачи MDP в частично наблюдаемой среде (Partially Observable MDP — POMDP, читается как "пом-ди-пи") обычно рассматриваются как намного более сложные по сравнению с обычными задачами ΜDP. Однако невозможно игнорировать необходимость решения задач POMDP, поскольку реальный мир изобилует такими задачами.

В качестве примера еще раз рассмотрим мир с размерами 4x3 (см. рис. 17.1), но на этот раз предположим, что агент вообще не имеет датчиков, а также не представляет себе, где находится. Точнее, допустим, что начальным состоянием агента с равной вероятностью может быть любое из девяти нетерминальных состояний (рис. 17.6, а). Очевидно, что если бы агент знал, что он находится в квадрате (3,3), то отправился бы направо, выполнив движение Right, а если бы знал, что он — в квадрате (1,1), то направился бы вверх с помощью движения Up, но поскольку агент может находиться в любом квадрате, то что ему делать? Один из возможных ответов состоит в том, что агенту необходимо вначале действовать так, чтобы уменьшить неопределенность своего положения и только после этого отправиться к выходу +1. Например, если агент выполнит движение Left пять раз, то с наибольшей вероятностью окажется у левой стены (см. рис. 17.6, б), а если он после этого пять раз выполнит движение Up, то, вполне вероятно, будет находиться вверху, возможно даже, в левом верхнем углу (см. рис. 17.6, в). Наконец, если он пять раз выполнит движение Right, то получит хорошие шансы (около 77,5%) достижения выхода +1 (см. рис. 17.6, г). Продолжение после этого движения вправо повышает его шансы до 81,8%. Поэтому такая стратегия является удивительно безопасной, но при ее использовании агенту потребуется довольно много времени для достижения желаемого выхода, а ожидаемая полезность будет составлять лишь около 0.08. Оптимальная стратегия, который вскоре будет описана, позволяет достичь намного лучших результатов.

Рис. 17.6. Пример реализации стратегии агента, не основанной на оптимальном подходе: первоначальное распределение вероятностей для местонахождения агента (а); распределение вероятностей после выполнения движения Left пять раз (б); то же, после выполнения движения Up пять раз (в); то же, после выполнения движения Right пять раз (г)