Разделы презентаций


Практическое занятие №3 Кластерный анализ

Содержание

План занятия1. Кластерный анализ. 2. Построение кластеров в программе Excel.

Слайды и текст этой презентации

Слайд 1Практическое занятие №3 «Кластерный анализ»
по дисциплине «Многомерный статистический анализ в социологических

исследованиях»

Практическое занятие №3 «Кластерный анализ»по дисциплине «Многомерный статистический анализ в социологических исследованиях»

Слайд 2План занятия
1. Кластерный анализ.
2. Построение кластеров в программе Excel.

План занятия1. Кластерный анализ. 2. Построение кластеров в программе Excel.

Слайд 3Методы многомерного анализа (multivariate analysis methods)
МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate

statistical analysis] — раздел математической статистики, объединяющий методы изучения статистических

данных, которые являются значениями многомерных качественных или количественных признаков

Цихончик Н.В., 2016

Методы многомерного анализа (multivariate analysis methods)МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate statistical analysis] — раздел математической статистики, объединяющий

Слайд 4Классификация многомерных методов
По назначению:
Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный

анализ
Методы классификации: варианты кластерного анализа (без обучения) и дискриминантный анализ
Структурные

методы: факторный анализ и многомерное шкалирование

Цихончик Н.В., 2016

Классификация многомерных методовПо назначению:Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный анализМетоды классификации: варианты кластерного анализа (без обучения)

Слайд 5Кластерный анализ
Цихончик Н.В., 2016
Кластерный анализ объединяет кластеры и переменные (объекты),

похожие друг на друга.
Он позволяет разбить выборку на несколько

групп по исследуемому признаку, проанализировать группы (как группируются переменные), группировку объектов (как группируются объекты).
Кластерный анализЦихончик Н.В., 2016Кластерный анализ объединяет кластеры и переменные (объекты), похожие друг на друга. Он позволяет разбить

Слайд 6Кластерный анализ
Кластерный анализ предназначен для разбиения совокупности объектов на однородные

группы (кластеры или классы). По сути это задача многомерной классификации

данных

Цихончик Н.В., 2016

Кластерный анализКластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). По сути это

Слайд 7По сути, кластерный анализ – это совокупность инструментов для классификации

многомерных объектов. Метод подразумевает определение расстояния между переменными (дельты) и

последующее выделение групп наблюдений (кластеров).
Техника кластеризации применяется в самых разнообразных областях. Главное задача – разбить многомерный ряд исследуемых значений (объектов, переменных, признаков) на однородные группы, кластеры. То есть данные классифицируются и структурируются.
Вопрос, который задает исследователь при использовании кластерного анализа, – как организовать многомерную выборку в наглядные структуры.
Примеры использования кластерного анализа:
В биологии – для определения видов животных на Земле.
В медицине – для классификации заболеваний по группам симптомов и способам терапии.
В психологии – для определения типов поведения личности в определенных ситуациях.
В экономическом анализе – при изучении и прогнозировании экономической депрессии, исследовании конъюнктуры.
В разнообразных маркетинговых исследованиях.
Когда нужно преобразовать «горы» информации в пригодные для дальнейшего изучения группы, используют кластерный анализ.

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных объектов. Метод подразумевает определение расстояния между

Слайд 8Преимущества метода:
позволяет разбивать многомерный ряд сразу по целому набору параметров;
можно

рассматривать данные практически любой природы (нет ограничений на вид исследуемых

объектов);
можно обрабатывать значительные объемы информации, резко сжимать их, делать компактными и наглядными;
может применяться циклически (проводится до тех пор, пока не будет достигнут нужный результат; а после каждого цикла возможно значительное изменение направленности дальнейшего исследования).
Кластерный анализ имеет и свои недостатки:
состав и количество кластеров зависит от заданного критерия разбиения;
при преобразовании исходного набора данных в компактные группы исходная информация может искажаться, отдельные объекты могут терять свою индивидуальность;
часто игнорируется отсутствие в анализируемой совокупности некоторых значений кластеров.

Преимущества метода:позволяет разбивать многомерный ряд сразу по целому набору параметров;можно рассматривать данные практически любой природы (нет ограничений

Слайд 9Данные для кластерного анализа
Кластерный анализ можно применять к интервальным данным,

частотам, бинарными данным. Важно, чтобы переменные изменялись в сравнимых шкалах
Чтобы устранить

неоднородность измерения исходных данных, все их значения предварительно нормируются, т.е. выражаются через отношение этих значений к некоторой величине, отражающей определенные свойства данного показателя

Цихончик Н.В., 2016

Данные для кластерного анализаКластерный анализ можно применять к интервальным данным, частотам, бинарными данным. Важно, чтобы переменные изменялись

Слайд 10Кластер
Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу

единиц
Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер

кластера.
Центр кластера - это среднее геометрическое место точек в пространстве переменных.
Радиус кластера - максимальное расстояние точек от центра кластера.

Цихончик Н.В., 2016

КластерКластер – это совокупность однородных элементов, идентичных объектов, образующих группу единицКластер имеет следующие математические характеристики: центр, радиус,

Слайд 11Методы кластерного анализа
Методы кластерного анализа можно разделить на две

группы:
иерархические;
неиерархические.
В качестве основных методов анализа пакет STATISTICA предлагает

Joining (tree clustering) – группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно, и K-Means Clustering (метод К-средних), в котором пользователь заранее определяет количество кластеров.

Цихончик Н.В., 2016

Методы кластерного анализа Методы кластерного анализа можно разделить на две группы: иерархические;неиерархические. В качестве основных методов анализа

Слайд 12Методы кластерного анализа: иерархические
Суть иерархической кластеризации состоит в последовательном

объединении меньших кластеров в большие или разделении больших кластеров на

меньшие
используются при небольших объемах наборов данных
Преимуществом является их наглядность
связаны с построением дендрограмм

Цихончик Н.В., 2016

Методы кластерного анализа: иерархические Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении

Слайд 13Дендрограмма
Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из

которых соответствует одному из шагов процесса последовательного укрупнения кластеров.
Цихончик

Н.В., 2016
ДендрограммаДендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного

Слайд 14Определение количества кластеров
способ сводится к определению скачкообразного увеличения некоторого

коэффициента, который характеризует переход от сильно связанного к слабо связанному

состоянию объектов

Цихончик Н.В., 2016

Определение количества кластеров способ сводится к определению скачкообразного увеличения некоторого коэффициента, который характеризует переход от сильно связанного

Слайд 15Методы кластерного анализа: неиерархические
основанные на разделении, которые представляют собой

итеративные методы дробления исходной совокупности
В процессе деления новые кластеры формируются

до тех пор, пока не будет выполнено правило остановки

Цихончик Н.В., 2016

Методы кластерного анализа: неиерархические основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупностиВ процессе деления

Слайд 16Практическая часть - построение кластеров в программе Excel

Практическая часть - построение кластеров в программе Excel

Слайд 17С помощью кластерного анализа можно проводить выборку по признаку, который

исследуется. Его основная задача – разбиение многомерного массива на однородные

группы.
В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.
Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.

С помощью кластерного анализа можно проводить выборку по признаку, который исследуется. Его основная задача – разбиение многомерного

Слайд 18Пример использования
Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Пример использованияИмеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Слайд 19Шаг 1
Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется

по шаблону:
=КОРЕНЬ((x2-x1)^2+(y2-y1)^2)
Данное значение вычисляем между каждым из пяти объектов. Результаты

расчета помещаем в матрице расстояний.
Шаг 1Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по шаблону:=КОРЕНЬ((x2-x1)^2+(y2-y1)^2)Данное значение вычисляем между каждым из

Слайд 20Шаг 1
=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Шаг 1=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Слайд 21Шаг 2
Смотрим, между какими значениями дистанция меньше всего. В нашем

примере — это объекты 1 и 2. Расстояние между ними составляет 13,41641, что

меньше, чем между любыми другими элементами данной совокупности.
Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента.

Шаг 2Смотрим, между какими значениями дистанция меньше всего. В нашем примере — это объекты 1 и 2. Расстояние между ними

Слайд 22Шаг 2

Шаг 2

Слайд 23Шаг 3
Опять смотрим, между какими элементами расстояние минимально.
На этот

раз – это объект 5 и группа объектов 1,2. Дистанция составляет 15,65248.

Шаг 3Опять смотрим, между какими элементами расстояние минимально. На этот раз – это объект 5 и группа объектов 1,2. Дистанция составляет

Слайд 24Шаг 3
Добавляем указанные элементы в общий кластер. Формируем новую матрицу

по тому же принципу, что и в предыдущий раз. То

есть, ищем самые меньшие значения. 
Шаг 3Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что и в

Слайд 25Шаг 4
Добавляем указанные элементы в общий кластер. Формируем новую матрицу

по тому же принципу, что и в предыдущий раз. То

есть, ищем самые меньшие значения. 
Шаг 4Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что и в

Слайд 26Шаг 4
Таким образом, мы видим, что нашу совокупность данных можно

разбить на два кластера. В первом кластере находятся наиболее близкие

между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 38,69936.
Шаг 4Таким образом, мы видим, что нашу совокупность данных можно разбить на два кластера. В первом кластере

Слайд 27Шаг 5
На этом завершается процедура разбиения совокупности на группы.






1 кластер

– респонденты, у которых расходы на питание составляют большую часть

дохода (4 из 5 человек, т.е. 80%)
2 кластер – это респондент, расходы на питание которого составляют меньшую часть бюджета (1 из 5 человек, т.е. 20% выборки).

Шаг 5На этом завершается процедура разбиения совокупности на группы.1 кластер – респонденты, у которых расходы на питание

Слайд 28Задание 1

Задание 1

Слайд 29Задание 2

Задание 2

Слайд 30Задание 3

Задание 3

Слайд 31Задание к следующему занятию
Факторный анализ: понятие и назначение процедуры.
Процедура факторного

анализа.

Задание к следующему занятиюФакторный анализ: понятие и назначение процедуры.Процедура факторного анализа.

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика