Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Оценка производительности обучающего алгоритма
Оценка производительности обучающего алгоритма

Безусловно, что обучающему алгоритму не должно быть разрешено "касаться" проверочных данных перед тем, как по ним будет проверена изученная гипотеза. К сожалению, часто очень легко можно попасть в ловушку, связанную с тем, что алгоритм компрометирует проверочные данные. Компрометация обычно происходит следующим образом: в обучающем алгоритме могут быть предусмотрены всевозможные "регуляторы", предназначенные для настройки его поведения, например различные и разнотипные критерии выбора следующего атрибута в процессе обучения дерева решений. Итак, формируются гипотезы для всевозможных различных установок этих регуляторов, измеряется их производительность на проверочном множестве и формируется отчет о производительности предсказания наилучшей гипотезы. К сожалению, при этом происходит компрометация! Причина этого состоит в том, что гипотеза была выбрана по результатам измерения ее производительности на проверочном множестве, поэтому информация о проверочном множестве проникла в обучающий алгоритм. Мораль этой истории состоит в том, что в любом процессе, предусматривающем сравнение производительностей гипотез на проверочном множестве, необходимо использовать новое проверочное множество для измерения производительности окончательно выбранной гипотезы. Но на практике такой подход осуществить слишком сложно, поэтому исследователи по-прежнему продолжают выполнять эксперименты на бывших в употреблении множествах примеров.

Рис. 18.5. Кривая обучения для алгоритма обучения дерева решений на 100 случайно сформированных примерах в проблемной области задачи с рестораном. В этом графике подытожены результаты 20 попыток