Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Формы обучения
Формы обучения

Задача обучения с подкреплением, которая будет рассматриваться в главе 21, является наиболее общей из этих трех категорий. Агент, проходящий обучение с подкреплением, не получает от учителя указаний о том, что делать, а должен обучаться на основе подкрепления. Например, отсутствие чаевых в конце поездки (или большой штраф за столкновение с идущим впереди автомобилем) будет служить для агента определенным показателем того, что его поведение нежелательно. Задача обучения с подкреплением обычно включает подзадачу обучения тому, как функционирует среда, в которой существует агент.

В определении того, как должен действовать алгоритм обучения, важную роль играет также применяемое представление той информации, которая должна быть освоена в процессе обучения. Любой из компонентов агента можно представить с использованием любой из схем представления, описанных в этой книге. Выше уже было приведено несколько примеров: в программах ведения игр для представления функций полезности применяются полиномы с линейными весами; высказывания в пропозициональной логике и логике первого порядка применимы для представления всех компонентов логического агента; а вероятностные описания, такие как байесовские сети, применяются в компонентах агента, действующего на основе теории решений, которые предназначены для обеспечения вероятностного вывода. Для всех этих средств представления разработаны эффективные алгоритмы обучения. В данной главе рассматриваются методы, относящиеся к пропозициональной логике, в главе 19 описаны методы для логики первого порядка, а в главе 20 — методы для байесовских и нейронных сетей (которые включают линейные полиномы в качестве частного случая).

Последним важным аспектом проектирования обучающихся систем является наличие априорных знаний. Большинство исследований проблем обучения, проводимых в области искусственного интеллекта, компьютерных наук и психологии, касались того случая, в котором агент приступает к обучению, вообще не имея никаких знаний о том, что он пытается изучить. Он имеет доступ только к примерам, полученным на основе собственного опыта. Хотя этот случай представляет собой важный частный случай, его не следует рассматривать как общий случай. Основная часть человеческого обучения проходит в контексте, связанном с наличием большого объема фоновых знаний. Некоторые психологи и лингвисты утверждают, что даже новорожденные младенцы демонстрируют наличие у них знаний о мире. Но, независимо от того, являются ли эти утверждения истинными, нет никакого сомнения в том, что априорные знания могут оказать огромную помощь в обучении. Физик, рассматривающий стопку фотографий, полученных с помощью пузырьковой камеры, может оказаться способным создать теорию, доказывающую существование новой частицы с определенной массой и зарядом, а если та же стопка фотографий будет показана без дополнительных пояснений искусствоведу, то он сможет лишь утверждать, будто этот "художник" относится к какой-то школе абстракционистов или экспрессионистов. В главе 19 будет показано несколько способов, позволяющих упростить обучение с использованием существующих знаний; кроме того, в ней показано, как можно компилировать знания для ускорения процесса принятия решений. В главе 20 описаны способы применения априорных знаний для упрощения изучения вероятностных теорий.