Главная arrow книги arrow Копия Глава 23. arrow Способы представления результирующих наборов
Способы представления результирующих наборов

В методе кластеризации по к средним создается плоское множество, состоящее точно из к категорий. Этот метод действует, как описано ниже.

1.    Случайным образом осуществляется выборка к документов для представления к категорий.

2.    Каждый документ обозначается как принадлежащий к ближайшей категории.

3.    Вычисляется среднее каждого кластера и используются к средних для представления новых значений к категорий.

4.    Этапы 2) и 3) повторяются до тех пор, пока алгоритм не сходится.

Для метода кластеризации по к средним требуются затраты времени, пропорциональные О (n), в чем состоит одно из его преимуществ над агломеративной кластеризацией. Но в литературе часто приходится встречать сообщение о том, что этот метод является менее точным по сравнению с агломеративной кластеризацией, хотя некоторые исследователи сообщают, что он позволяет добиться почти таких же высоких показателей [1460].

Но независимо от применяемого алгоритма кластеризации требуется решить еще одну задачу, прежде чем результаты кластеризации можно будет использовать для представления результирующего набора, — найти удобный способ описания кластера. При использовании метода классификации имена категорий уже определены (например, "Earnings" — доходы), но при кластеризации имена категорий приходится изобретать заново. Один из способов выполнения этой задачи состоит в подборе списка слов, которые являются представительными для этого кластера. Еще один вариант состоит в применении названий одного или нескольких документов, близких к центру кластера.