Разделы презентаций


Методы кластеризации

Содержание

План лекцииВведениеФормальная постановка задачиМетод k-среднихМетод ISODATAАгломеративный методДивизимный метод

Слайды и текст этой презентации

Слайд 1Методы кластеризации
Лекция 16

Методы кластеризацииЛекция 16

Слайд 2План лекции
Введение
Формальная постановка задачи
Метод k-средних
Метод ISODATA
Агломеративный метод
Дивизимный метод

План лекцииВведениеФормальная постановка задачиМетод k-среднихМетод ISODATAАгломеративный методДивизимный метод

Слайд 3Введение
Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих»

объектов, называемых кластерами
Решение задачи кластеризации называют кластерным анализом

ВведениеЗадача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых кластерамиРешение задачи кластеризации называют

Слайд 4Введение
Кластеризация отличается от классификации тем, что этап обучения на примерах отсутствует
В

задачах классификации множество классов заранее известно, в кластеризации классы определяются в процессе

анализа
Поэтому кластеризация относится к задачам обучения без учителя (unsupervised learning)
ВведениеКластеризация отличается от классификации тем, что этап обучения на примерах отсутствуетВ задачах классификации множество классов заранее известно,

Слайд 5Введение
Эта задача решается на начальных этапах исследования, когда о данных

мало что известно
Ее решение помогает лучше понять данные
После определения кластеров

применяются другие методы Data Mining, чтобы попытаться установить, что означает такое разбиение
ВведениеЭта задача решается на начальных этапах исследования, когда о данных мало что известноЕе решение помогает лучше понять

Слайд 6Введение
Кластерный анализ позволяет рассматривать достаточно большой объем информации и сжимать

большие массивы информации, делать их компактными и наглядными

ВведениеКластерный анализ позволяет рассматривать достаточно большой объем информации и сжимать большие массивы информации, делать их компактными и

Слайд 7Формальная постановка задачи
Дано множество данных, состоящее из N объектов (векторов):
S1,

S2, …, SN
Каждый объект описывается набором признаков:
x1, x2, …, xm,
где

m – размерность пространства признаков
Формальная постановка задачиДано множество данных, состоящее из N объектов (векторов):S1, S2, …, SNКаждый объект описывается набором признаков:x1,

Слайд 8Формальная постановка задачи
Таким образом, i-й объект можно записать в виде:
Si

= (xi1, xi2, …, xim)

Класс для каждого объекта неизвестен

Формальная постановка задачиТаким образом, i-й объект можно записать в виде:Si = (xi1, xi2, …, xim)Класс для каждого

Слайд 9Формальная постановка задачи
Требуется:
найти способ сравнения d(Sp, Sq) объектов между собой (меру

сходства, функцию расстояния)
определить множество кластеров
С1, C2, …, Cr
причем количество кластеров

r – неизвестно
разбить данные по кластерам
Формальная постановка задачиТребуется:найти способ сравнения d(Sp, Sq) объектов между собой (меру сходства, функцию расстояния)определить множество кластеровС1, C2,

Слайд 10Формальная постановка задачи
В качестве меры сходства используются:
евклидово расстояние
квадрат евклидова расстояния
расстояние

Хэмминга
расстояние Чебышева

Формальная постановка задачиВ качестве меры сходства используются:евклидово расстояниеквадрат евклидова расстояниярасстояние Хэммингарасстояние Чебышева

Слайд 11Формальная постановка задачи
Методы кластерного анализа можно разделить на две группы:
неиерархические
иерархические

Формальная постановка задачиМетоды кластерного анализа можно разделить на две группы:неиерархическиеиерархические

Слайд 12Метод k-средних
Неиерархическим методом кластеризации является метод k-средних (k-means)
Предварительно необходимо выбрать

вероятное число кластеров k

Метод k-среднихНеиерархическим методом кластеризации является метод k-средних (k-means)Предварительно необходимо выбрать вероятное число кластеров k

Слайд 13Метод k-средних
1. Выбирается k произвольных исходных центров кластеров – обычно

выбираются k объектов
2. Все объекты разбиваются на k групп, наиболее

близких к одному из центров
3. Вычисляются новые центры кластеров
4. Проводится новое разбиение всех объектов на основании близости к новым центрам
Шаги 3 и 4 повторяются до тех пор, пока центры кластеров не перестанут меняться или пока не достигнуто максимальное число итераций
Метод k-средних1. Выбирается k произвольных исходных центров кластеров – обычно выбираются k объектов2. Все объекты разбиваются на

Слайд 14Метод k-средних
Выбор числа кластеров является сложным вопросом
Если нет предположений относительно

этого числа, рекомендуют создать 2 кластера, затем 3, 4, 5

и т. д., сравнивая полученные результаты
Метод k-среднихВыбор числа кластеров является сложным вопросомЕсли нет предположений относительно этого числа, рекомендуют создать 2 кластера, затем

Слайд 15Метод k-средних
Начальный выбор центров кластеров осуществляется следующим образом:
выбор k объектов

для максимизации начального расстояния
случайный выбор k объектов
выбор первых k объектов

Метод k-среднихНачальный выбор центров кластеров осуществляется следующим образом:выбор k объектов для максимизации начального расстоянияслучайный выбор k объектоввыбор

Слайд 16Метод k-средних
Центры кластеров вычисляются по формулам:




где NC – количество объектов,

входящих в кластер С

Метод k-среднихЦентры кластеров вычисляются по формулам:						 …где NC – количество объектов, входящих в кластер С

Слайд 17Метод k-средних
Пример.
Примем k = 3
Начальные центры – объекты 1,

3, 4

Метод k-среднихПример. Примем k = 3Начальные центры – объекты 1, 3, 4

Слайд 18Метод k-средних
Пример.
Примем k = 3
Начальные центры – объекты 1,

3, 4
Разобьем все объекты по кластерам

Метод k-среднихПример. Примем k = 3Начальные центры – объекты 1, 3, 4Разобьем все объекты по кластерам

Слайд 19Метод k-средних
Найдем новые центры кластеров

Метод k-среднихНайдем новые центры кластеров

Слайд 20Метод k-средних
Найдем новые центры кластеров
Разобьем все объекты по новым кластерам

Метод k-среднихНайдем новые центры кластеровРазобьем все объекты по новым кластерам

Слайд 21Метод k-средних
Пересчитаем центры кластеров

Метод k-среднихПересчитаем центры кластеров

Слайд 22Метод k-средних
Разбивка объектов по новым кластерам не меняет расположение центров

Метод k-среднихРазбивка объектов по новым кластерам не меняет расположение центров

Слайд 23Метод ISODATA
ISODATA – Iterative Self-Organizing Data Analysis Techniques – итеративный

самоорганизующийся метод анализа данных
Более сложный алгоритм, чем k-means, дополненный несколькими

эвристиками
Полное описание см. Ту Дж., Гонсалес Р. «Принципы распознавания образов», М.: Мир, 1978
Метод ISODATAISODATA – Iterative Self-Organizing Data Analysis Techniques – итеративный самоорганизующийся метод анализа данныхБолее сложный алгоритм, чем

Слайд 24Метод ISODATA
Если в кластер входит менее заданного минимального числа объектов,

кластер удаляется
Если среднее расстояние между объектами кластера больше заданного максимального

порога, кластер расщепляется на два новых кластера
Метод ISODATAЕсли в кластер входит менее заданного минимального числа объектов, кластер удаляетсяЕсли среднее расстояние между объектами кластера

Слайд 25Метод ISODATA
Если расстояние между центрами двух кластеров меньше заданного минимального

порога, кластеры сливаются
В алгоритме ISODATA множество параметров, настройка которых представляет

определенные трудности
Метод ISODATAЕсли расстояние между центрами двух кластеров меньше заданного минимального порога, кластеры сливаютсяВ алгоритме ISODATA множество параметров,

Слайд 26Иерархические методы
К иерархическим методам кластеризации относятся:
агломеративный алгоритм (Agglomerative Nesting, AGNES)
дивизимный

алгоритм (Divisive ANAlysis, DIANA)

Иерархические методыК иерархическим методам кластеризации относятся:агломеративный алгоритм (Agglomerative Nesting, AGNES)дивизимный алгоритм (Divisive ANAlysis, DIANA)

Слайд 27Агломеративный метод
В начале работы алгоритма все объекты являются отдельными кластерами
На

первом шаге наиболее похожие (близкие) два кластера объединяются в дин

кластер
На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер
На любом этапе объединение можно прервать, получив нужное число кластеров
Агломеративный методВ начале работы алгоритма все объекты являются отдельными кластерамиНа первом шаге наиболее похожие (близкие) два кластера

Слайд 28Агломеративный метод
Расстояние между кластерами можно определить различными способами:
расстояние между центрами

кластеров
расстояние между двумя наиболее близкими объектами в кластерах
расстояние между двумя

наиболее дальними объектами в кластерах
среднее расстояние между всеми парами объектов в них
Агломеративный методРасстояние между кластерами можно определить различными способами:расстояние между центрами кластероврасстояние между двумя наиболее близкими объектами в

Слайд 29Агломеративный метод
Пример.
Каждый объект формирует свой кластер

Агломеративный методПример. Каждый объект формирует свой кластер

Слайд 30Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Агломеративный методВыбираем и объединяем два наиболее близких кластера

Слайд 31Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Агломеративный методВыбираем и объединяем два наиболее близких кластера

Слайд 32Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Агломеративный методВыбираем и объединяем два наиболее близких кластера

Слайд 33Дивизимный метод
На первом шаге все объекты помещаются в один кластер

С1
Выбирается объект, у которого среднее значение расстояния до других объектов

в этом кластере наибольшее:
Дивизимный методНа первом шаге все объекты помещаются в один кластер С1Выбирается объект, у которого среднее значение расстояния

Слайд 34Дивизимный метод
Выбранный объект удаляется из кластера С1 и формирует первый

элемент второго кластера С2
На каждом последующем шаге объект в кластере С1,

для которого разность между средним расстоянием до объектов, находящихся в С2 и средним расстоянием до объектов, остающихся в С1, наибольшая, переносится в С2
Дивизимный методВыбранный объект удаляется из кластера С1 и формирует первый элемент второго кластера С2На каждом последующем шаге

Слайд 35Дивизимный метод
Переносы элементов из С1 в С2 продолжаются до тех

пор, пока соответствующие разности средних не станут отрицательными, то есть пока существуют

элементы, расположенные к элементам кластера С2 ближе, чем к элементам кластера С1
Дивизимный методПереносы элементов из С1 в С2 продолжаются до тех пор, пока соответствующие разности средних не станут

Слайд 36Дивизимный метод
В результате один кластер делится на два дочерних, один

из которых расщепляется на следующем уровне иерархии
Каждый последующий уровень применяет

процедуру разделения к одному из кластеров, полученных на предыдущем уровне
Дивизимный методВ результате один кластер делится на два дочерних, один из которых расщепляется на следующем уровне иерархииКаждый

Слайд 37Дивизимный метод
Кластер для расщепления выбирается, например, по наибольшему диаметру
Диаметр кластера

– расстояние между двумя наиболее дальними объектами кластера
Рекурсивное разделение кластеров

продолжается, пока хотя бы один кластер содержит более одного объекта
Дивизимный методКластер для расщепления выбирается, например, по наибольшему диаметруДиаметр кластера – расстояние между двумя наиболее дальними объектами

Слайд 38Иерархические методы

Иерархические методы

Слайд 39Иерархические методы
Проблема определения оптимального числа кластеров:
иногда можно априорно определить число

кластеров
однако в большинстве случаев число кластеров определяется в процессе кластеризации


Иерархические методыПроблема определения оптимального числа кластеров:иногда можно априорно определить число кластероводнако в большинстве случаев число кластеров определяется

Слайд 40Иерархические методы
В иерархических методах существует способ, позволяющий определить оптимальное число

кластеров
Процессу группировки объектов в иерархическом кластерном анализе соответствует постепенное возрастание

коэффициента, называемого критерием Е
Критерий Е на каждом шаге определяется как расстояние между ближайшими кластерами
Иерархические методыВ иерархических методах существует способ, позволяющий определить оптимальное число кластеровПроцессу группировки объектов в иерархическом кластерном анализе

Слайд 41Иерархические методы
Скачкообразное увеличение критерия Е говорит о переходе от сильно

связанного к слабо связанному состоянию объектов
Таким образом, нужно останавливать процесс

разбиения, когда значение критерия Е резко изменится
Иерархические методыСкачкообразное увеличение критерия Е говорит о переходе от сильно связанного к слабо связанному состоянию объектовТаким образом,

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика