Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Расширение области применения деревьев решений
Расширение области применения деревьев решений

Для того чтобы распространить методы индуктивного вывода деревьев решений на более широкий круг задач, необходимо решить целый ряд проблем. В данном разделе кратко описана каждая из этих проблем, но более полного их понимания можно добиться, выполнив указанные здесь упражнения.

•    Недостающие данные. Во многих проблемных областях не все значения атрибутов могут быть определены для каждого примера, в связи с тем, что такие значения могут оказаться незарегистрированными или задача их получения является слишком дорогостоящей. Такая ситуация приводит к возникновению двух проблем. Во-первых, если дано полное дерево решений, то как следует классифицировать некоторый объект, для которого не задан один из проверяемых атрибутов? Во-вторых, как следует модифицировать формулу приращения информации, если в некоторых примерах неизвестны значения данного атрибута? Эти вопросы рассматриваются в упр. 18.12.

•    Многозначные атрибуты. Если атрибут имеет много возможных значений, то критерий приращения информации придает оценке полезности атрибута не соответствующую ей значимость. В крайнем случае может встретиться такой атрибут, который имеет в каждом примере другое значение, скажем RestaurantName (Название ресторана). В таком случае каждое подмножество примеров становится одноэлементным подмножеством с уникальной классификацией, поэтому критерий приращения информации для соответствующего атрибута принимает наивысшее значение. Тем не менее этот атрибут может оказаться нерелевантным или бесполезным. Одним из решений данной проблемы является использование коэффициента приращения (упр. 18.13).

•    Непрерывные и целочисленные входные атрибуты. Непрерывные или целочисленные атрибуты, такие как Height (Рост) и Weight (Вес), имеют бесконечное множество возможных значений. Но вместо формирования бесконечно большого количества ветвей алгоритмы обучения деревьев решений, как правило, находят точку разбиения, позволяющую получить наивысшее приращение информации. Например, в каком-то конкретном узле дерева может оказаться, что наибольший объем информации позволяет получить проверка по условию Weight>160. Разработаны эффективные методы динамического программирования для поиска приемлемых точек разбиения, но они все еще представляют собой тот компонент реальных приложений в области обучения деревьев решений, который требует намного больше затрат по сравнению с другими компонентами.