Обобщение в обучении с подкреплением |
Страница 5 из 5 Функциональная аппроксимация может также оказаться очень полезной при определении с помощью обучения модели среды. Напомним, что задача определения с помощью обучения модели для наблюдаемой среды представляет собой задачу контролируемого обучения, поскольку каждый следующий результат восприятия предоставляет информацию о результирующем состоянии. При этом может использоваться любой из методов контролируемого обучения, описанный в главе 18, с соответствующими поправками с учетом того факта, что необходимо определить с помощью прогноза полное описание состояния, а не просто булеву классификацию или единственное реальное значение. Например, если состояние определяется с помощью п булевых переменных, то необходимо найти с помощью обучения п булевых функций для прогнозирования всех переменных. А в случае частично наблюдаемой среды задача обучения становится гораздо более сложной. Если известно, каковы скрытые переменные и какими причинными отношениями они связаны друг с другом и с наблюдаемыми переменными, то можно зафиксировать структуру динамической байесовской сети и воспользоваться алгоритмом ЕМ для определения с помощью обучения ее параметров, как было описано в главе 20. А задачи выявления скрытых переменных и определения структуры модели с помощью обучения все еще остаются открытыми. Теперь обратимся к примерам крупномасштабных приложений обучения с подкреплением. На основании этих примеров будет показано, что в случае использования функции полезности (следовательно, некоторой модели) модель обычно считается заданной. Например, при определении с помощью обучения функции оценки для нард обычно предполагается, что допустимые ходы и их результаты известны заранее.
<< В начало < Предыдущая 1 2 3 4 5 Следующая > В конец >> |