Главная arrow книги arrow Копия Глава 20. Статистические методы обучения arrow Практический пример: распознавание рукописных цифр
Практический пример: распознавание рукописных цифр

Виртуальная машина поддерживающих векторов начинает работу с обычной машины SVM, а затем совершенствует ее с помощью метода, позволяющего воспользоваться данными о структуре задачи. В этом подходе не разрешается использовать произведения всех пар пикселов — вместо этого в основном применяются ядерные функции, сформированные с помощью пар ближайших пикселов. В нем также была предусмотрена возможность дополнять обучающий набор преобразованными вариантами примеров, как и в проекте LeNet. Виртуальная машина SVM достигла наилучшего показателя частоты ошибок, зарегистрированного до настоящего времени, который равен 0,56%.

Согласование с формой — это метод из области машинного зрения, который используется для выравнивания соответствующих частей двух различных изображений объектов (см. главу 24). Идея этого метода состоит в том, что выбирается множество точек каждого из двух изображений, а затем для каждой точки из первого изображения с помощью вычислений определяется, какая точка соответствует ей во втором изображении. После этого на основании полученных данных о выравнивании вычисляется преобразование между изображениями, которое позволяет определить значение критерия расстояния между этими изображениями. Такой критерий расстояния является более обоснованным по сравнению с простым подсчетом количества различающихся пикселов, и, как оказалось, очень высокую производительность показывает алгоритм с тремя ближайшими соседними точками, в котором используется этот критерий расстояния. После обучения только на 20000 из 60000 цифр и с использованием 100 выборочных точек в расчете на каждое изображение, выделенных с помощью детектора края Кэнни, классификатор с согласованием формы достиг частоты ошибок при обработке проверочного набора, равной 0,63%.

По некоторым оценкам, люди допускают ошибки при решении задачи распознавания рукописных цифр с частотой примерно 0,2%. Но этим данным не следует полностью доверять, поскольку отнюдь не проводилась такая исчерпывающая проверка способностей людей, как самих алгоритмов машинного обучения. На аналогичном наборе данных, состоящем из цифр, полученных из почтовой службы США, частота ошибок, допущенных людьми, составляла примерно 2,5%.