Главная arrow книги arrow Копия Глава 12. arrow Условное планирование в частично наблюдаемых вариантах среды
Условное планирование в частично наблюдаемых вариантах среды

В предыдущем разделе рассматривались полностью наблюдаемые варианты среды, преимущество которых состоит с том, что во время условных проверок можно задавать любые вопросы и быть уверенным в том, что будет получен ответ. Но в реальном мире гораздо чаще встречается частичная наблюдаемость. В начальном состоянии частично наблюдаемой задачи планирования агент обладает лишь некоторым объемом знаний о действительном состоянии. Простейший способ промоделировать такую ситуацию состоит в том, чтобы принять предположение, что начальное состояние принадлежит к множеству состояний; множество состояний представляет собой способ описания начального доверительного состояния агента.

Предположим следующее: агенту в мире пылесоса известно, что он находится в правом квадрате и что этот квадрат чист, но он не может определить с помощью датчиков наличие или отсутствие мусора в других квадратах. В таком случае, насколько известно агенту, он может находиться в одном из двух состояний: левый квадрат может быть либо чистым, либо грязным. Это доверительное состояние обозначено на рис. 12.8 буквой А На этом рисунке показана часть графа AND—OR для мира пылесоса с "альтернативным двойным законом Мэрфи", в котором мусор может иногда оставаться сзади, после того как агент покидает чистый квадрат. Если бы этот мир был полностью наблюдаемым, то агент имел бы возможность сформировать циклическое решение в такой форме: "Продолжать двигаться влево и вправо, всасывая мусор везде, где он появляется, до тех пор, пока оба квадрата не станут чистыми, а я не буду находиться в левом квадрате" (см. упр. 12.16). К сожалению, при использовании лишь локального датчика грязи этот план является невыполнимым, поскольку невозможно определить истинностное значение проверки "оба квадрата стали чистыми".

Рассмотрим, как формируется граф AND—OR. Из доверительного состояния А мы показываем результат перемещения с помощью действия Left (другие действия не имеют смысла). Поскольку агент может оставить за собой мусор, эти два возможных начальных состояния мира становятся четырьмя возможными состояниями, как показано в прямоугольниках B и С. Эти состояния формируют два различных доверительных состояния, которые классифицируются по доступной информации датчика. В доверительном состоянии В агент имеет информацию CleanL, а в доверительном состоянии С— информацию - CleanL. В результате уборки мусора в состоянии С агент переходит в состояние В. После перехода с помощью действия Right из состояния в агент может оставить или не оставить за собой мусор, поэтому снова возникают четыре возможные состояния мира, которые подразделяются в соответствии со знаниями агента о том, является ли правый квадрат чистым, CleanR (возврат в состояние А), или грязным, - CleanR (переход в доверительное состояние D).

Рис. 12.8. Часть графа AND—OR для мира пылесоса с "альтернативным двойным законом Мэрфи", в котором грязь иногда может оставаться сзади, после того как агент покидает чистый квадрат. Агент не может получать с помощью датчиков информацию о наличии грязи в других квадратах