Главная arrow книги arrow Копия Глава 20. Статистические методы обучения arrow Библиографические и исторические заметки
Библиографические и исторические заметки

Общая задача определения в процессе обучения параметров вероятностных моделей со скрытыми переменными и недостающими данными была решена с помощью алгоритма ЕМ, предложенного Демпстером [383], который представляет собой обобщение нескольких существующих методов, включая алгоритм Баума-Уэлша для обучения скрытых марковских моделей [85]. (Сам Демпстер рассматривал ЕМ скорее как схему, а не как алгоритм, поскольку может потребоваться большой объем математической работы, прежде чем появится возможность применить подход на основе ЕМ к новому семейству распределений.) В настоящее время ЕМ представляет собой один из алгоритмов, наиболее широко используемых в науке, а Маклахлан и Кришнан посвятили этому алгоритму и его свойствам целую книгу [1030]. Конкретная задача определения в процессе обучения параметров моделей на основе смешанных распределений, включая смешанные гауссовы распределения, рассматривается в [1509]. В рамках искусственного интеллекта первой успешной системой, в которой использовался алгоритм ЕМ для моделирования смешанных распределений, была система Autoclass [245], [246]. Система Autoclass применялась для решения многих реальных задач научной классификации, включая открытие новых типов звезд на основе спектральных данных [567] и новых классов белков и интронов в базах данных последовательностей ДНК/белок [708].

Алгоритм ЕМ для обучения байесовских сетей со скрытыми переменными был разработан Лауритценом [892]. Наряду с этим свою эффективность при обучении байесовских сетей, а также динамических байесовских сетей показали методы на основе градиента [1326], [126]. Структурный алгоритм ЕМ был разработан Фридманом [506]. Способность к определению в процессе обучения структуры байесовских сетей тесно связана с проблемой извлечения причинной информации из данных. Эта проблема сводится к поиску ответа на вопрос о том, существует ли возможность определять в процессе обучения структуру байесовских сетей таким образом, чтобы полученная структура сети демонстрировала реальные причинные связи? В течение многих лет статистики избегали анализа этого вопроса, считая, что данные самих наблюдений (в отличие от данных, выработанных в результате экспериментальных попыток) могут предоставить только информацию о корреляции; в конце концов, любые две переменные, которые кажутся взаимосвязанными, могут в действительности испытывать влияние третьего, неизвестного причинного фактора, а не влиять друг на друга непосредственно. Перл [1192] представил убедительные доводы, опровергающие это мнение, и показал, что фактически возникает много ситуаций, в которых причинно-следственные связи можно подтвердить и выявить с помощью формальных средств причинной сети для выражения причин и результатов вмешательства, а также обычных условных вероятностей.