Резюме - Искусственный интеллект

Копия Глава 21. Обучение с подкреплением

Резюме

Страница 2 из 2

• Определение с помощью обучения функций "действие—значение", или Q-функций, может быть организовано на основе подхода ADP или TD. При использовании метода TD в процессе Q-обучения не требуется модель ни на этапе обучения, ни на этапе выбора действия. Это позволяет упростить задачу обучения, но в принципе может привести к ограничению способности проводить обучение в сложных вариантах среды, поскольку агент не сможет моделировать результаты применения возможных стратегий.

• Если от обучающегося агента требуется, чтобы он выбирал действия, пока еще продолжается обучение, то агенту приходится искать компромисс между оцениваемым значением этих действий и перспективами определения с помощью обучения новой полезной информации. Задача поиска точного решения такой проблемы исследования является неосуществимой, но некоторые простые эвристики позволяют добиться приемлемых результатов.

• Если пространство состояний велико, то в алгоритмах обучения с подкреплением необходимо использовать приближенное функциональное представление для обобщения сведений о состояниях. Для обновления параметров таких представлений, как нейронные сети, можно непосредственно использовать информацию о временной разности.

• Методы поиска стратегии применяются непосредственно к представлению стратегии в попытке улучшить ее с учетом наблюдаемой производительности. Изменчивость производительности в стохастической проблемной области представляет собой серьезную проблему; в случае моделируемых проблемных областей эту сложность можно преодолеть, заранее формируя случайные выборки.

• Обучение с подкреплением позволяет избавиться от необходимости разрабатывать вручную стратегии управления, поэтому продолжает оставаться одной из наиболее активных областей исследований машинного обучения. Особенно ценными могут стать приложения этих подходов в робототехнике; для этого потребуются методы обеспечения действий в непрерывных, многомерных, частично наблюдаемых вариантах среды, в которых успешное поведение может складываться из тысяч или даже миллионов примитивных действий.

<< В начало < Предыдущая 1 2 Следующая > В конец >>