Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Обучение ансамбля
Обучение ансамбля

По мере увеличения размера ансамбля Μ обнаруживается интересное явление. На рис. 18.8, б показана производительность обучающего множества (на 100 примерах) как функция от м. Обратите внимание на то, что ошибка достигает нуля (как и следует из определения метода усиления), когда остановится равным 20; это означает, что взвешенная мажоритарная комбинация из 20 одноузловых деревьев решений вполне позволяет определить точное соответствие для 100 примеров. По мере введения в ансамбль дополнительных одноузловых деревьев решений ошибка остается равной нулю. Этот график также показывает, что производительность обработки проверочного множества продолжает возрастать в течение долгого времени после того, как ошибка на обучающем множестве достигает нуля. При М-2 0 производительность на проверочном множестве равна 0,95 (что соответствует 0,05 ошибки) и после чего увеличивается до 0,98 при таком большом значении, как M=13 7, прежде чем постепенно уменьшиться до 0,95.

Эта особенность, которая неизменно проявляется в самых разных наборах данных и пространствах гипотез, после ее обнаружения впервые показалась исследователям весьма неожиданной. Согласно принципу бритвы Оккама, не следует создавать гипотезы, более сложные, чем необходимо, а этот график говорит нам о том, что по мере усложнения гипотезы-ансамбля предсказания улучшаются! Для объяснения этого феномена было предложено несколько трактовок. Один из подходов к анализу такого явления состоит в том, что в процессе усиления аппроксимируется байесовское обучение (см. главу 20), притом что можно доказать, что байесовский алгоритм является оптимальным обучающим алгоритмом, а аппроксимация улучшается по мере введения дополнительных гипотез. Еще одно возможное объяснение состоит в том, что введение дополнительных гипотез позволяет добиться того, что ансамбль проводит все более определенное различие между положительными и отрицательными примерами, а это свойство способствует лучшей классификации новых примеров.