Кластер: группа «похожих» объектов
«похожих» между собой в группе (внутриклассовое расстояние)
«не похожих» на объекты других групп
Определение неформальное, формализация зависит от метода
Кластерный анализ
Разбиение множество объектов на группы (кластеры)
Тип моделей:
«описательный» (descriptive) Data mining => одна из задач - наглядное представление кластеров
«прогнозный» (predictive) Data mining => разбиение на кластеры, а затем «классификация» новых объектов
Тип обучения:
всегда «без учителя» (unsupervised) => тренировочный набор не размечен
Кластеризация ради кластеризации:
Выявление и описание групп (человек не способен «осознать» более 10 объектов в одной задаче, как обработать выборку с миллионами?)
«Сжатие» информации (особенно в обработке мультимедиа)
Построение различных поисковых индексов (сравниваем не со всеми, а начинаем с прототипов кластеров)
Мощнейшее средство предобработки данных:
Дискретизация
Уменьшение размера выборки (от больших объемов к «реальным»)
Обработка пропущенных значений (инициализируем и итерационно
«улучшаем» пропуски)
Поиск исключений и артефактов (что не в кластере, то под
«подозрением»)
Хороший метод кластеризации находит кластеры
c высоким «внутриклассовым» сходством объектов
и низким «межклассовым» сходством объектов
Оценка качества кластеризации (нет понятия «точность»)
необходима, так как влияет на выбор параметров метода
определяется либо экспертом – субъективная величина
либо «перекрестной» проверкой целевой функции кластеризации
Качество кластеризации зависит:
от метода кластеризации
от меры сходства (или расстояния)
Step Step Step Step 1 2 3 4
a b
d e
a b c d e c d e
Step 0
a
b c d e
Step
4
Step Step Step Step 3 2 1 0
восходящая agglomerative
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
нисходящая divisive
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Пример
Точное решение – перебор с отсечением
метод «ветвей и границ», но число комбинаций неприемлемо даже для 100 объектов:
Эвристические методы:
K-means (прототип кластера – мат. ожидание m), K-medoids
(прототип кластера – средний элемент)
ищется локальный минимум
K
Ci C j , Ci X
d (x, x)
min
i1 xCi xCi
1
K
K ! i1
K
S(N , K )
K N
i
(1)K i
i
i1 xCi
min
Ci C j , Ci X
K d (m , x)
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Шаг 1. Поиск центров:
Для всех K кластеров
Шаг 2. Расчет расстояний до центров:
и K кластеров
i
i
x C
xC
m
i
i
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
i
C
xCi
Для всех N объектов d (m , x) x
Шаг 3. Выбор ближайшего кластера:
x Ci i min d (mj , x)
j
Если были перестановки, то Шаг 1.
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
2
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
1 E(R2 )
K
CCC ln 1 R
clust
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:
Email: Нажмите что бы посмотреть