Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Обучение ансамбля
Обучение ансамбля

До сих пор в этой главе рассматривались методы обучения, в которых для получения предсказаний использовалась отдельная гипотеза, выбранная из пространства гипотез. В отличие от этого, идея методов обучения ансамбля состоит в том, что из пространства гипотез следует выбрать целую коллекцию, или так называемый ансамбль гипотез, и в дальнейшем комбинировать предсказания, полученные с помощью гипотез этого ансамбля. Например, может быть сформировано сто разных деревьев решений из одного и того же обучающего множества, после чего проведено голосование для определения наилучшей классификации нового примера.

В основе стремления использовать обучение ансамбля лежит простая причина. Рассмотрим ансамбль из M=5 гипотез и предположим, что их предсказания комбинируются с использованием несложного мажоритарного голосования. Для того чтобы этот ансамбль неправильно классифицировал новый пример, его должны неправильно классифицировать по меньшей мере три из пяти гипотез. Однако вполне можно рассчитывать на то, что данная ситуация является гораздо менее вероятной по сравнению с ошибочной классификацией при использовании единственной гипотезы. Допустим, что предполагается, будто каждая гипотезав ансамбле допускает ошибку с вероятностью р. Иными словами, вероятность того, что случайно выбранный пример будет неправильно классифицирован гипотезой, равна р. Кроме того, допустим, что предполагается, будто ошибки, допущенные с применением каждой гипотезы, являются независимыми. В таком случае, если вероятность ρ мала, то вероятность одновременного появления большого количества ошибок классификации становится микроскопической. Например, простой расчет (упр. 18.14) показывает, что использование ансамбля из пяти гипотез позволяет сократить частоту ошибок от величины 1/10 до величины меньше чем 1/100. Тем не менее очевидно, что предположение о независимости гипотез неоправданно, поскольку во всех гипотезах, скорее всего, будут возникать одинаковые искажения, вызванные одними и теми же искажающими их аспектами одинаковых обучающих данных. Но если гипотезы хоть немного отличаются друг от друга, что приводит к уменьшению корреляции между их ошибками, то обучение ансамбля может оказаться очень полезным.

Еще один способ трактовки идеи ансамбля состоит в том, что ансамбль — это универсальный метод расширения пространства гипотез. Это означает, что сам ансамбль может рассматриваться как гипотеза, а новое пространство гипотез — как множество всех возможных ансамблей, которые могут быть сформированы из гипотез первоначального пространства. Как показано на рис. 18.6, такой подход может привести к созданию более выразительного пространства гипотез. Если первоначальное пространство гипотез допускает возможность использовать простой и эффективный алгоритм обучения, то метод формирования ансамбля предоставляет возможность формировать в процессе обучения гораздо более выразительный класс гипотез без значительного дополнительного увеличения вычислительной или алгоритмической сложности.