Страница 3 из 3 В методе кластеризации по к средним создается плоское множество, состоящее точно из к категорий. Этот метод действует, как описано ниже. 1. Случайным образом осуществляется выборка к документов для представления к категорий. 2. Каждый документ обозначается как принадлежащий к ближайшей категории. 3. Вычисляется среднее каждого кластера и используются к средних для представления новых значений к категорий. 4. Этапы 2) и 3) повторяются до тех пор, пока алгоритм не сходится. Для метода кластеризации по к средним требуются затраты времени, пропорциональные О (n), в чем состоит одно из его преимуществ над агломеративной кластеризацией. Но в литературе часто приходится встречать сообщение о том, что этот метод является менее точным по сравнению с агломеративной кластеризацией, хотя некоторые исследователи сообщают, что он позволяет добиться почти таких же высоких показателей [1460]. Но независимо от применяемого алгоритма кластеризации требуется решить еще одну задачу, прежде чем результаты кластеризации можно будет использовать для представления результирующего набора, — найти удобный способ описания кластера. При использовании метода классификации имена категорий уже определены (например, "Earnings" — доходы), но при кластеризации имена категорий приходится изобретать заново. Один из способов выполнения этой задачи состоит в подборе списка слов, которые являются представительными для этого кластера. Еще один вариант состоит в применении названий одного или нескольких документов, близких к центру кластера.
<< В начало < Предыдущая 1 2 3 Следующая > В конец >> |