Главная arrow книги arrow Копия Глава 18. Обучение на основе наблюдений arrow Шум и чрезмерно тщательная подгонка
Шум и чрезмерно тщательная подгонка

Как было показано выше, если имеются два или несколько примеров с одинаковым описанием (с точки зрения атрибутов), но с разными классификациями, то работа алгоритма Decision-Tree-Learning обязательно окончится неудачей, поскольку невозможно будет найти дерево решений, совместимое со всеми примерами. Кроме того, уже упоминалось, что приемлемый способ решения этой проблемы может предусматривать либо применение в каждом листовом узле мажоритарной классификации для относящегося к нему множества примеров (если требуется детерминированная гипотеза), либо формирование оценок вероятностей каждой классификации с использованием относительных частот. К сожалению, описанные выше ситуации не исчерпывают перечень всех возможных нарушений в процессе формирования дерева решений. Вполне возможна такая ситуация (которая действительно часто встречается на практике), что алгоритм обучения деревьев решений формирует дерево решений, совместимое со всеми примерами, даже несмотря на то, что эти примеры не содержат крайне важной информации для данной задачи классификации. Это связано с тем, что в рассматриваемом алгоритме могут использоваться не относящиеся к делу атрибуты (если они имеются), в результате чего проводятся несуществующие различия между примерами.

Рассмотрим задачу, в которой осуществляются попытки предсказать результаты броска игральной кости. Предположим, что эксперименты проводятся в течение продолжительного периода времени с различными игральными костями и что атрибуты, описывающие каждый обучающий пример, являются следующими:

1.    Day (День недели). День, в который был выполнен бросок игральной кости (Моп (Понедельник), Тие (Вторник), Wed (Среда), Thu (Четверг)).

2.    Month (Месяц). Месяц, в который был выполнен бросок игральной кости (Jan (Январь) или Feb (Февраль)).

3.    Color (Цвет). Цвет игральной кости (Red (Красный) или Blue (Синий)).

При условии, что не существует двух примеров с одинаковыми описаниями и разными классификациями, алгоритм Decision-Tree-Learning позволяет найти точную гипотезу. Чем больше количество используемых атрибутов, тем выше вероятность, что будет найдена точная гипотеза. Но все такие гипотезы будут полностью не связанными с действительностью, поскольку рассматриваемые атрибуты не влияют на выпадение игральной кости. Требуется лишь то, чтобы алгоритм Decision-Tree-Learning возвратил единственный листовой узел с вероятностями, близкими к 1/6, для каждого результата выпадения очков на игральной кости, как только будет получено достаточное количество примеров.