SAS ENTERPRISE MINER КЛАСТЕРИЗАЦИЯ

Содержание

1. SAS ENTERPRISE MINER КЛАСТЕРИЗАЦИЯ
2. SampleExplore ModifyModelAssessКОНЦЕПЦИЯ SEMMAC op yr i g h t
3. ЧТО ЕСТЬ КЛАСТЕР?C op yr i g
4. ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ ВЗАДАЧАХ АНАЛИЗА ДАННЫХC op
5. Алгоритмы кластерного анализаКластерный анализ включает в себя
6. Применение кластеризации – группировка объектов
7. Применение кластеризации – распознавание образов
8. Применение кластеризации – классификация результатов поиска
9. Кластерный анализ – как инструмент интегральной оценки коммерческих банков
10. Кластерный анализ – как инструмент интегральной оценки коммерческих банков
11. Кластерный анализ – как инструмент интегральной оценки коммерческих банков
12. Кластерный анализ – как инструмент интегральной оценки коммерческих банков
13. Кластерный анализ – как инструмент интегральной оценки коммерческих банков
14. КАЧЕСТВО КЛАСТЕРИЗАЦИИC op yr i g h
15. ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯИспользуется только матрица сходства (различия) и
16. ПРЕДСТАВЛЕНИЕ ИЕРАРХИЧЕСКИХ КЛАСТЕРОВ - ДЕНДРОГРАММАбинарное дерево, описывающее
17. ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ - DEMOC op yr i
18. УРОВНИ КЛАСТЕРИЗАЦИИC op yr i g h
19. ОЦЕНКА БЛИЗОСТИ КЛАСТЕРОВРасчет расстояния на основе попарных
20. C op yr i g h t
21. КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ СТРОГОЙ ГРУППИРОВКИ (PARTITIONING):Основная задача:Найти
22. МЕТОД K-MEANS В ENTERPRISE MINERШаг 0. Инициализация:произвольное
23. АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANSTraining DataВыбор переменных.Выбор k центровкластеров.Выбор
24. АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANSTraining DataВыбор переменных.Выбор k центровкластеров.Выбор
25. Training Data...C op yr i g h
26. Training Data...C op yr i g h
27. Training DataАЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS...C op yr i
28. Training Data...C op yr i g h
29. Training DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра
30. Training Data...C op yr i g h
31. Training DataАЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS...C op yr i
32. Training Data...C op yr i g h
33. Training Data...C op yr i g h
34. Training DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра
35. Training Data...C op yr i g h
36. ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ••SAS Cubic Clustering Criterion (CCC)
37. ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ1.2.3.4.Случайно выбираются центры для большого
38. Скачать презентанцию

SampleExplore ModifyModelAssessКОНЦЕПЦИЯ SEMMAC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l

Главная
Разное
SAS ENTERPRISE MINER КЛАСТЕРИЗАЦИЯ

Слайды и текст этой презентации

Слайд 1SAS ENTERPRISE MINER
КЛАСТЕРИЗАЦИЯ
C op yr i g h t ©

2 0 1 2 , S A S I n

s t i t u t e I n c . A l l r i g h t s r es er v e d .

SAS ENTERPRISE MINERКЛАСТЕРИЗАЦИЯC op yr i g h t © 2 0 1 2 , S A

Слайд 2Sample
Explore Modify
Model
Assess
КОНЦЕПЦИЯ SEMMA
C op yr i g h t © 2 0

1 2 , S A S I n s t

i t u t e I n c . A l l r i g h t s r es er v e d .

SampleExplore ModifyModelAssessКОНЦЕПЦИЯ SEMMAC op yr i g h t © 2 0 1 2 , S A S I

Слайд 3ЧТО ЕСТЬ КЛАСТЕР?
C op yr i g h t ©

2 0 1 2 , S A S I n

s t i t u t e I n c . A l l r i g h t s r es er v e d .

Кластер: группа «похожих» объектов
«похожих» между собой в группе (внутриклассовое расстояние)
«не похожих» на объекты других групп
Определение неформальное, формализация зависит от метода
Кластерный анализ
Разбиение множество объектов на группы (кластеры)
Тип моделей:
«описательный» (descriptive) Data mining => одна из задач - наглядное представление кластеров
«прогнозный» (predictive) Data mining => разбиение на кластеры, а затем «классификация» новых объектов
Тип обучения:
всегда «без учителя» (unsupervised) => тренировочный набор не размечен

Слайд 4ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ В
ЗАДАЧАХ АНАЛИЗА ДАННЫХ
C op yr i g

h t © 2 0 1 2 , S A

S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

Кластеризация ради кластеризации:
Выявление и описание групп (человек не способен «осознать» более 10 объектов в одной задаче, как обработать выборку с миллионами?)
«Сжатие» информации (особенно в обработке мультимедиа)
Построение различных поисковых индексов (сравниваем не со всеми, а начинаем с прототипов кластеров)
Мощнейшее средство предобработки данных:
Дискретизация
Уменьшение размера выборки (от больших объемов к «реальным»)
Обработка пропущенных значений (инициализируем и итерационно
«улучшаем» пропуски)
Поиск исключений и артефактов (что не в кластере, то под
«подозрением»)

ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ ВЗАДАЧАХ АНАЛИЗА ДАННЫХC op yr i g h t © 2 0 1 2

Слайд 5Алгоритмы кластерного анализа
Кластерный анализ включает в себя более 100 различных

алгоритмов классификации для организации наблюдаемых данных в наглядные структуры.
Термин
«Кластерный

анализ» впервые введен
в 1939 году

Алгоритмы кластерного анализаКластерный анализ включает в себя более 100 различных алгоритмов классификации для организации наблюдаемых данных в

Слайд 6Применение кластеризации – группировка объектов

Слайд 7Применение кластеризации – распознавание образов

Слайд 8Применение кластеризации – классификация результатов поиска

Слайд 9Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 10Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 11Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 12Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 13Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 14КАЧЕСТВО КЛАСТЕРИЗАЦИИ
C op yr i g h t © 2

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

Хороший метод кластеризации находит кластеры
c высоким «внутриклассовым» сходством объектов
и низким «межклассовым» сходством объектов
Оценка качества кластеризации (нет понятия «точность»)
необходима, так как влияет на выбор параметров метода
определяется либо экспертом – субъективная величина
либо «перекрестной» проверкой целевой функции кластеризации
Качество кластеризации зависит:
от метода кластеризации
от меры сходства (или расстояния)

КАЧЕСТВО КЛАСТЕРИЗАЦИИC op yr i g h t © 2 0 1 2 , S A S

Слайд 15ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ
Используется только матрица сходства (различия) и не требуется
дополнительных параметров

(например, числа кластеров)
«Пошаговое» объединение ближайших кластеров (восходящая) или разбиение наиболее

удаленных (нисходящая)

Step Step Step Step 1 2 3 4
a b

d e

a b c d e c d e

Step 0
a
b c d e
Step
4

Step Step Step Step 3 2 1 0

восходящая agglomerative

C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

нисходящая divisive

ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯИспользуется только матрица сходства (различия) и не требуетсядополнительных параметров (например, числа кластеров)«Пошаговое» объединение ближайших кластеров (восходящая)

Слайд 16ПРЕДСТАВЛЕНИЕ ИЕРАРХИЧЕСКИХ КЛАСТЕРОВ - ДЕНДРОГРАММА
бинарное дерево, описывающее все шаги разбиения
Корень

– общий кластер,
листья - элементы
«Высота» ветвей (до пересечения) – порог

расстояния «склейки» («разделения»)
Результат кластеризации
– «срез» дендрограммы

C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

ПРЕДСТАВЛЕНИЕ ИЕРАРХИЧЕСКИХ КЛАСТЕРОВ - ДЕНДРОГРАММАбинарное дерево, описывающее все шаги разбиенияКорень – общий кластер,листья - элементы«Высота» ветвей (до

Слайд 17ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ - DEMO
C op yr i g h t

© 2 0 1 2 , S A S I

n s t i t u t e I n c . A l l r i g h t s r es er v e d .

ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ - DEMOC op yr i g h t © 2 0 1 2 , S

Слайд 18УРОВНИ КЛАСТЕРИЗАЦИИ
C op yr i g h t © 2

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

УРОВНИ КЛАСТЕРИЗАЦИИC op yr i g h t © 2 0 1 2 , S A S

Слайд 19ОЦЕНКА БЛИЗОСТИ КЛАСТЕРОВ
Расчет расстояния на основе попарных расстояний между элементами

различных кластеров:
Полное связывание: наибольшее попарное расстояние. Дает компактные сферические кластеры.
Среднее

связывание: усредненное попарное
расстояние. Редко используется.
Единственное связывание: наименьшее попарное расстояние. Дает «растянутые» кластеры сложной формы.
Центроидное связывание: расстояние между центрами (мат. ожидание) кластеров.
Другие методы (например метод Ward’а – минимизирует внутрикластерные дисперсии или другую целевую функцию)

C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

ОЦЕНКА БЛИЗОСТИ КЛАСТЕРОВРасчет расстояния на основе попарных расстояний между элементами различных кластеров:Полное связывание: наибольшее попарное расстояние. Дает

Слайд 20C op yr i g h t © 2 0

1 2 , S A S I n s t

i t u t e I n c . A l l r i g h t s r es er v e d .

Пример

Слайд 21КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ СТРОГОЙ ГРУППИРОВКИ (PARTITIONING):
Основная задача:
Найти такое разбиение C

исходного множества X из N объектов на K непересекающихся подмножеств

Ck, покрывающих X, чтобы внутриклассовое расстояние было минимальным:

Точное решение – перебор с отсечением
метод «ветвей и границ», но число комбинаций неприемлемо даже для 100 объектов:

Эвристические методы:

K-means (прототип кластера – мат. ожидание m), K-medoids
(прототип кластера – средний элемент)

ищется локальный минимум

Ci C j , Ci  X

d (x, x)

min  

i1 xCi xCi

K ! i1

 K 

S(N , K ) 

 K N

 i 

(1)K i 

i1 xCi

min
Ci C j , Ci  X

K  d (m , x)

C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ СТРОГОЙ ГРУППИРОВКИ (PARTITIONING):Основная задача:Найти такое разбиение C исходного множества X из N объектов на

Слайд 22МЕТОД K-MEANS В ENTERPRISE MINER
Шаг 0. Инициализация:
произвольное разбиение на заданное

число кластеров K (где значение K выбирается по ССС на

основе иерархической кластеризации) по

Шаг 1. Поиск центров:
Для всех K кластеров

Шаг 2. Расчет расстояний до центров:

и K кластеров

x C

xC

m 

i 

C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

xCi

Для всех N объектов d (m , x)   x

Шаг 3. Выбор ближайшего кластера:
x Ci  i  min d (mj , x)
j
Если были перестановки, то Шаг 1.

МЕТОД K-MEANS В ENTERPRISE MINERШаг 0. Инициализация:произвольное разбиение на заданное число кластеров K (где значение K выбирается

Слайд 23АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для

каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
C

op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANSTraining DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра для каждого примера.Пересчет центров.Переход на шаг 3 пока

Слайд 24АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для

каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
C

op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

Слайд 25Training Data
...
C op yr i g h t © 2

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся

Training Data...C op yr i g h t © 2 0 1 2 , S A S

Слайд 26Training Data
...
C op yr i g h t © 2

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Слайд 27Training Data
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
...
C op yr i g h t

n s t i t u t e I n c . A l l r i g h t s r es er v e d .

Training DataАЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS...C op yr i g h t © 2 0 1 2 , S

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Слайд 29Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет

центров.
Переход на шаг 3 пока процесс не сошелся
...
C op yr

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Training DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра для каждого примера.Пересчет центров.Переход на шаг 3 пока процесс не

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Слайд 31Training Data
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
...
C op yr i g h t

n s t i t u t e I n c . A l l r i g h t s r es er v e d .

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Слайд 34Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет

центров.
Переход на шаг 3 пока процесс не сошелся
...
C op yr

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

0 1 2 , S A S I n s

t i t u t e I n c . A l l r i g h t s r es er v e d .

АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Слайд 36ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ
•
•
SAS Cubic Clustering Criterion (CCC) (Sarle, 1983)
Основная идея: сравнение

R2 (для отображения матрицы данных с помощью индикаторной матрицы в

прототипы кластеров) для заданной модели кластеризации с E(R2) для равномерно распределенного множества прототипов кластеров (как наихудший возможный вариант):

1  E(R2 ) 

  K

CCC  ln  1  R



clust 

Слайд 37ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ
1.
2.
3.
4.
Случайно выбираются центры для большого (50 по умолчанию)

числа кластеров Все наблюдения объединяются в эти случайные кластеры Решается

задач восходящей иерархической кластеризации, на каждом шаге считается CCC
По определенным правилам выбирается оптимальное число кластеров:
Первый локальный пик …

ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ1.2.3.4.Случайно выбираются центры для большого (50 по умолчанию) числа кластеров Все наблюдения объединяются в эти

Скачать презентацию

Разделы презентаций

SAS ENTERPRISE MINER КЛАСТЕРИЗАЦИЯ

Содержание

Слайды и текст этой презентации

Слайд 1SAS ENTERPRISE MINERКЛАСТЕРИЗАЦИЯC op yr i g h t ©

2 0 1 2 , S A S I n

Слайд 2SampleExplore ModifyModelAssessКОНЦЕПЦИЯ SEMMAC op yr i g h t © 2 0

1 2 , S A S I n s t

Слайд 3ЧТО ЕСТЬ КЛАСТЕР?C op yr i g h t ©

2 0 1 2 , S A S I n

Слайд 4ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ ВЗАДАЧАХ АНАЛИЗА ДАННЫХC op yr i g

h t © 2 0 1 2 , S A

Слайд 5Алгоритмы кластерного анализаКластерный анализ включает в себя более 100 различных

алгоритмов классификации для организации наблюдаемых данных в наглядные структуры. Термин «Кластерный

Слайд 6Применение кластеризации – группировка объектов

Слайд 7Применение кластеризации – распознавание образов

Слайд 8Применение кластеризации – классификация результатов поиска

Слайд 9Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 10Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 11Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 12Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 13Кластерный анализ – как инструмент интегральной оценки коммерческих банков

Слайд 14КАЧЕСТВО КЛАСТЕРИЗАЦИИC op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 15ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯИспользуется только матрица сходства (различия) и не требуетсядополнительных параметров

(например, числа кластеров)«Пошаговое» объединение ближайших кластеров (восходящая) или разбиение наиболее

Слайд 16ПРЕДСТАВЛЕНИЕ ИЕРАРХИЧЕСКИХ КЛАСТЕРОВ - ДЕНДРОГРАММАбинарное дерево, описывающее все шаги разбиенияКорень

– общий кластер,листья - элементы«Высота» ветвей (до пересечения) – порог

Слайд 17ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ - DEMOC op yr i g h t

© 2 0 1 2 , S A S I

Слайд 18УРОВНИ КЛАСТЕРИЗАЦИИC op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 19ОЦЕНКА БЛИЗОСТИ КЛАСТЕРОВРасчет расстояния на основе попарных расстояний между элементами

различных кластеров:Полное связывание: наибольшее попарное расстояние. Дает компактные сферические кластеры.Среднее

Слайд 20C op yr i g h t © 2 0

1 2 , S A S I n s t

Слайд 21КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ СТРОГОЙ ГРУППИРОВКИ (PARTITIONING):Основная задача:Найти такое разбиение C

исходного множества X из N объектов на K непересекающихся подмножеств

Слайд 22МЕТОД K-MEANS В ENTERPRISE MINERШаг 0. Инициализация:произвольное разбиение на заданное

число кластеров K (где значение K выбирается по ССС на

Слайд 23АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANSTraining DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра для

каждого примера.Пересчет центров.Переход на шаг 3 пока процесс не сошелсяC

Слайд 24АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANSTraining DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра для

каждого примера.Пересчет центров.Переход на шаг 3 пока процесс не сошелсяC

Слайд 25Training Data...C op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 26Training Data...C op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 27Training DataАЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS...C op yr i g h t

© 2 0 1 2 , S A S I

Слайд 28Training Data...C op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 29Training DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра для каждого примера.Пересчет

центров.Переход на шаг 3 пока процесс не сошелся...C op yr

Слайд 30Training Data...C op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 31Training DataАЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS...C op yr i g h t

© 2 0 1 2 , S A S I

Слайд 32Training Data...C op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 33Training Data...C op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 34Training DataВыбор переменных.Выбор k центровкластеров.Выбор ближайшего центра для каждого примера.Пересчет

центров.Переход на шаг 3 пока процесс не сошелся...C op yr

Слайд 35Training Data...C op yr i g h t © 2

0 1 2 , S A S I n s

Слайд 36ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ••SAS Cubic Clustering Criterion (CCC) (Sarle, 1983)Основная идея: сравнение

R2 (для отображения матрицы данных с помощью индикаторной матрицы в

Слайд 37ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ1.2.3.4.Случайно выбираются центры для большого (50 по умолчанию)

числа кластеров Все наблюдения объединяются в эти случайные кластеры Решается

Похожие презентации

Обратная связь

Что такое TheSlide.ru?

Слайд 1SAS ENTERPRISE MINER
КЛАСТЕРИЗАЦИЯ
C op yr i g h t ©

Слайд 2Sample
Explore Modify
Model
Assess
КОНЦЕПЦИЯ SEMMA
C op yr i g h t © 2 0

Слайд 3ЧТО ЕСТЬ КЛАСТЕР?
C op yr i g h t ©

Слайд 4ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ В
ЗАДАЧАХ АНАЛИЗА ДАННЫХ
C op yr i g

Слайд 5Алгоритмы кластерного анализа
Кластерный анализ включает в себя более 100 различных

алгоритмов классификации для организации наблюдаемых данных в наглядные структуры.
Термин
«Кластерный

Слайд 14КАЧЕСТВО КЛАСТЕРИЗАЦИИ
C op yr i g h t © 2

Слайд 15ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ
Используется только матрица сходства (различия) и не требуется
дополнительных параметров

(например, числа кластеров)
«Пошаговое» объединение ближайших кластеров (восходящая) или разбиение наиболее

Слайд 16ПРЕДСТАВЛЕНИЕ ИЕРАРХИЧЕСКИХ КЛАСТЕРОВ - ДЕНДРОГРАММА
бинарное дерево, описывающее все шаги разбиения
Корень

– общий кластер,
листья - элементы
«Высота» ветвей (до пересечения) – порог

Слайд 17ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ - DEMO
C op yr i g h t

Слайд 18УРОВНИ КЛАСТЕРИЗАЦИИ
C op yr i g h t © 2

Слайд 19ОЦЕНКА БЛИЗОСТИ КЛАСТЕРОВ
Расчет расстояния на основе попарных расстояний между элементами

различных кластеров:
Полное связывание: наибольшее попарное расстояние. Дает компактные сферические кластеры.
Среднее

Слайд 21КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ СТРОГОЙ ГРУППИРОВКИ (PARTITIONING):
Основная задача:
Найти такое разбиение C

Слайд 22МЕТОД K-MEANS В ENTERPRISE MINER
Шаг 0. Инициализация:
произвольное разбиение на заданное

Слайд 23АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для

каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
C

Слайд 24АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS

Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для

каждого примера.
Пересчет центров.
Переход на шаг 3 пока процесс не сошелся
C

Слайд 25Training Data
...
C op yr i g h t © 2

Слайд 26Training Data
...
C op yr i g h t © 2

Слайд 27Training Data
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
...
C op yr i g h t

Слайд 28Training Data
...
C op yr i g h t © 2

Слайд 29Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет

центров.
Переход на шаг 3 пока процесс не сошелся
...
C op yr

Слайд 30Training Data
...
C op yr i g h t © 2

Слайд 31Training Data
АЛГОРИТМ КЛАСТЕРИЗАЦИИ K-MEANS
...
C op yr i g h t

Слайд 32Training Data
...
C op yr i g h t © 2

Слайд 33Training Data
...
C op yr i g h t © 2

Слайд 34Training Data
Выбор переменных.
Выбор k центров
кластеров.
Выбор ближайшего центра для каждого примера.
Пересчет

центров.
Переход на шаг 3 пока процесс не сошелся
...
C op yr

Слайд 35Training Data
...
C op yr i g h t © 2

Слайд 36ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ
•
•
SAS Cubic Clustering Criterion (CCC) (Sarle, 1983)
Основная идея: сравнение

Слайд 37ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ
1.
2.
3.
4.
Случайно выбираются центры для большого (50 по умолчанию)