Главная arrow книги arrow Копия Глава 20. Статистические методы обучения arrow Статистическое обучение
Статистическое обучение

, поскольку в пакете типа h3 половина конфет— лимонные леденцы2. На рис. 20.1, а показано, как изменяются апостериорные вероятности пяти гипотез по мере наблюдения последовательности из 10 лимонных леденцов. Обратите внимание на то, что кривые вероятностей начинаются с их априорных значений, поэтому первоначально наиболее вероятным вариантом является гипотеза h3 и остается таковой после развертывания 1 конфеты с лимонным леденцом. После развертывания 2 конфет с лимонными леденцами наиболее вероятной становится гипотеза h4, а после обнаружения 3 или больше лимонных леденцов наиболее вероятной становится гипотеза h5 (ненавистный пакет, состоящий из одних кислых лимонных леденцов). После обнаружения 10 подряд лимонных леденцов мы почти уверены в своей злосчастной судьбе. На рис. 20.1,6 приведена предсказанная вероятность того, что следующий леденец будет лимонным, согласно уравнению 20.2. Как и следовало ожидать, она монотонно увеличивается до 1.

Рис. 20.1. Изменение вероятностей в зависимости от количества данных: апостериорные вероятности, полученные с помощью уравнения 20.1. Количество наблюдений N возрастает от 1 до 10, а в каждом наблюдении обнаруживается лимонный леденец (а); байесовские предсказания, полученные из уравнения 20.2 (б)

Этот пример показывает, что истинная гипотеза в конечном итоге будет доминировать над байесовским предсказанием. В этом состоит характерная особенность байесовского обучения. При любом заданном распределении априорных вероятностей, которое не исключает с самого начала истинную гипотезу, апостериорная вероятность любой ложной гипотезы в конечном итоге полностью исчезает просто потому, что вероятность неопределенно долгого формирования "нехарактерных" данных исчезающе мала (сравните это замечание с аналогичным замечанием, сделанным при обсуждении РАС-обучения в главе 18). Еще более важно то, что байесовское предсказание является оптимальным, независимо от того, применяется ли большой или малый набор данных. При наличии распределения априорных вероятностей гипотезы все другие предсказания будут правильными менее часто.