Главная arrow книги arrow Копия Глава 20. Статистические методы обучения arrow Библиографические и исторические заметки
Библиографические и исторические заметки

Тема вероятностной интерпретации нейронных сетей рассматривалась в нескольких источниках, включая [84] и [185]. Роль сигмоидальной функции описана в [745]. Метод байесовского обучения параметрам для нейронных сетей был предложен Маккеем [965], а его дальнейшее исследование проведено Нилом [1118]. Способность нейронных сетей представлять функции была исследована Цыбенко [316], [317], который показал, что двух скрытых слоев достаточно для представления любой функции, а одного скрытого слоя достаточно для представления любой непрерывной функции. Метод "оптимального повреждения мозга", предназначенный для удаления бесполезных связей, изложен в [903], а в [1409] показано, как удалять ненужные элементы. Алгоритм заполнения мозаики, предназначенный для наращивания размеров структур, предложен в [1037]. В [904] приведен обзор целого ряда алгоритмов распознавания рукописных цифр. С тех пор были опубликованы сведения о достигнутых успехах в области уменьшения частоты ошибок в [98] с помощью алгоритма согласования с формой и в [374] — с помощью алгоритма для виртуальных поддерживающих векторов.

Проблемы сложности обучения нейронных сетей рассматривались исследователями, занимающимися теорией вычислительного обучения. Первые вычислительные результаты были получены Джаддом [753], который показал, что общая задача поиска множества весов, совместимых с множеством примеров, является NP-полной, даже при очень ограничительных предположениях. Некоторые из первых результатов, касающихся выборочной сложности, были получены Баумом и Хаусслером [82], которые показали, что количество примеров, требуемых для эффективного обучения, растет примерно пропорционально WlogW, где W— количество весов16. С тех пор была разработана гораздо более совершенная теория [34], в том числе получен важный результат, показывающий, что репрезентативная способность сети зависит не только от количества весов, но и от их величины.

Наиболее широко применяемой разновидностью нейронных сетей из тех, которые не рассматривались в данной книге, является сеть с радиальной базисной функцией, или сокращенно RBF (Radial Basis Function). В радиальной базисной функции объединяется взвешенная коллекция ядерных функций (разумеется, обычно гауссовых распределений) для осуществления функциональной аппроксимации. Обучение сетей RBF может проводиться в два этапа: вначале с помощью подхода на основе неконтролируемой кластеризации происходит определение в процессе обучения параметров гауссовых распределений (математических ожиданий и дисперсий), как описано в разделе 20.3. На втором этапе определяются относительные веса гауссовых распределений. Они составляют систему линейных уравнений, которые, как известно, можно решить непосредственно. Поэтому два этапа обучения RBF предоставляют важное преимущество: первый этап является неконтролируемым, и поэтому для него не требуются размеченные обучающие данных, а второй этап, хотя и контролируемый, характеризуется высокой эффективностью. Подробные сведения приведены в [133].