Оценка производительности обучающего алгоритма

Копия Глава 18. Обучение на основе наблюдений

Страница 1 из 2

Обучающий алгоритм является приемлемым, если он вырабатывает гипотезы, обеспечивающие качественные предсказания в отношении того, к какому классу будут относиться еще не встречавшиеся примеры. В разделе 18.5 будет показано, как можно заранее оценить качество предсказания. А в данном разделе рассматривается методология оценки качества предсказания после его фактического получения.

Очевидно, что предсказание является качественным, если оказалось, что оно — истинное, поэтому можно оценить качество гипотезы, сверяя ее предсказания с правильной классификацией после того, как она становится известной. Такая задача осуществляется с помощью множества примеров, которые принято называть проверочным множеством. Дело в том, что если обучение проведено по всем доступным примерам, то приходится возвращаться к действительности и заниматься подбором дополнительных примеров для проведения по ним проверки, поэтому чаще более удобно использовать описанную ниже методологию.

1. Собрать множество примеров большого объема.

2. Разделить его на два непересекающихся подмножества: обучающее множество и проверочное множество.

3. Применить обучающий алгоритм к обучающему множеству для формирования гипотезы h.

4. Определить, какой процент примеров в проверочном множестве правильно классифицируется с помощью гипотезы h.

5. Повторять этапы 2—4 для различных размеров обучающих множеств и различных случайно выбранных обучающих множеств каждого размера.

Результатом применения этой процедуры становится набор данных, которые можно обрабатывать для получения среднего качества предсказаний, которое выражается в виде некоторой функциональной зависимости от размера обучающего множества. Эта функция может быть изображена в виде графика, представляющего собой так называемую кривую обучения для данного алгоритма в данной конкретной проблемной области. Кривая обучения для алгоритма Decision-Tree-Learning, полученная с использованием примеров из задачи с рестораном, показана на рис. 18.5. Обратите внимание на то, что качество предсказания повышается по мере увеличения размера обучающего множества (по этой причине подобные кривые часто называют счастливыми графиками). Это — хороший признак, который показывает, что в данных действительно есть какие-то повторяющиеся шаблоны (закономерности) и обучающий алгоритм их выделяет.

<< В начало < Предыдущая 1 2 Следующая > В конец >>