Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Формы обучения
Формы обучения

Тип обратной связи, доступной для обучения, обычно является наиболее важным фактором, определяющим характер задачи обучения, с которой сталкивается агент. В области машинного обучения, как правило, различаются три случая: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением.

В задаче контролируемого обучения предусматривается изучение некоторой функции на примерах ее входных и выходных данных. Все приведенные выше случаи, касающиеся компонентов 1, 2 и 3, представляют собой примеры задач контролируемого обучения. В случае, который относится к компоненту 1, агент изучает правило "условие-действие", касающееся торможения, т.е. функцию, которая связывает входные состояния с булевым выходом (тормозить или не тормозить). В случае компонента 2 агент изучает функцию, преобразующую входные изображения в булев выход (который показывает, содержит ли изображение автобус). В случае компонента 3 сведения о торможении выражаются в виде функции, которая связывает состояния и действия по торможению, скажем, с длиной тормозного пути в футах. Обратите внимание на то, что в случаях 1 и 2 учитель указывает в примерах правильное выходное значение, а в случае 3 выходное значение должно быть получено непосредственно из результатов восприятия агента. В полностью наблюдаемых вариантах среды всегда соблюдается такое условие, что агент может наблюдать за результатами своих действий и поэтому использовать методы контролируемого обучения, чтобы научиться предсказывать эти результаты. В частично наблюдаемых вариантах среды задача обучения становится более сложной, поскольку непосредственные результаты могут оказаться недоступными для восприятия.

Задача неконтролируемого обучения касается выявления определенных закономерностей во входных данных в тех условиях, когда не задаются конкретные выходные значения. Например, агент-водитель такси может постепенно развить представление о "днях с хорошими условиями дорожного движения" и "днях с плохими условиями дорожного движения", даже не получая обозначенных соответствующими заголовками примеров тех или других дней. Обучающийся агент, полностью остающийся без контроля, не может узнать в процессе обучения, что делать, поскольку он не имеет информации о том, каковым является определение понятия правильного действия или желательного состояния. Мы будем изучать проблему неконтролируемого обучения в основном в контексте систем формирования вероятностных рассуждений (глава 20).