Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Обобщение в обучении с подкреплением
Обобщение в обучении с подкреплением

Таким образом, если, тоПо результатам некоторой совокупности попыток будет получено множество выборочных значений, после чего можно найти соответствие, наилучшее с точки зрения минимизации квадратичных ошибок, с помощью стандартной линейной регрессии (см. главу 20).

Применительно к обучению с подкреплением больше смысла имеет использование алгоритма оперативного обучения, который обновляет параметры после каждой попытки. Предположим, что осуществляется некоторая попытка, и суммарное вознаграждение, полученное начиная с квадрата (1,1), составляет 0.4. Такой результат наводит на мысль, что значение, составляющее в настоящее время 0.8, слишком велико и должно быть уменьшено. Как следует откорректировать параметры, чтобы добиться такого уменьшения? Как и в случае с обучением нейронной сети, запишем функцию ошибки и вычислим ее градиент по отношению к параметрам. Если— наблюдаемое суммарное вознаграждение, полученное от состояния s и дальше, вплоть до j-й попытки, то ошибка определяется как (половина) квадратов разностей прогнозируемой общей суммы и фактической общей суммы:

. Скорость изменения ошибки по отношению к каждому параметруравна, поэтому, чтобы изменить значение параметра в направлении уменьшения ошибки, необходимо вычислить следующее выражение:

(21.10)

Это выражение называется правилом Видроу—Хоффа, или дельта-правилом для оперативного вычисления по методу наименьших квадратов. Применительно к линейному аппроксиматору функции в уравнении 21.9 получаем три простых правила обновления:

Эти правила можно применить к примеру, в котором равно 0.8, аравно 0.4. Все значенияуменьшаются на коэффициент 0 . 4а, который уменьшает ошибку, относящуюся к квадрату (1,1). Обратите внимание на то, что изменение значенийприводит также к изменению значений для всех прочих состояний! Именно это подразумевалось в приведенном выше утверждении, что функциональная аппроксимация позволяет агенту, проводящему обучение с подкреплением, обобщать свой опыт.