Слайд 1Практическое занятие №3
«Кластерный анализ»
по дисциплине «Многомерный статистический анализ в социологических
исследованиях»
Слайд 2План занятия
1. Кластерный анализ.
2. Построение кластеров в программе Excel.
Слайд 3Методы многомерного анализа (multivariate analysis methods)
МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate
statistical analysis] — раздел математической статистики, объединяющий методы изучения статистических
данных, которые являются значениями многомерных качественных или количественных признаков
Цихончик Н.В., 2016
Слайд 4Классификация многомерных методов
По назначению:
Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный
анализ
Методы классификации: варианты кластерного анализа (без обучения) и дискриминантный анализ
Структурные
методы: факторный анализ и многомерное шкалирование
Цихончик Н.В., 2016
Слайд 5Кластерный анализ
Цихончик Н.В., 2016
Кластерный анализ объединяет кластеры и переменные (объекты),
похожие друг на друга.
Он позволяет разбить выборку на несколько
групп по исследуемому признаку, проанализировать группы (как группируются переменные), группировку объектов (как группируются объекты).
Слайд 6Кластерный анализ
Кластерный анализ предназначен для разбиения совокупности объектов на однородные
группы (кластеры или классы). По сути это задача многомерной классификации
данных
Цихончик Н.В., 2016
Слайд 7По сути, кластерный анализ – это совокупность инструментов для классификации
многомерных объектов. Метод подразумевает определение расстояния между переменными (дельты) и
последующее выделение групп наблюдений (кластеров).
Техника кластеризации применяется в самых разнообразных областях. Главное задача – разбить многомерный ряд исследуемых значений (объектов, переменных, признаков) на однородные группы, кластеры. То есть данные классифицируются и структурируются.
Вопрос, который задает исследователь при использовании кластерного анализа, – как организовать многомерную выборку в наглядные структуры.
Примеры использования кластерного анализа:
В биологии – для определения видов животных на Земле.
В медицине – для классификации заболеваний по группам симптомов и способам терапии.
В психологии – для определения типов поведения личности в определенных ситуациях.
В экономическом анализе – при изучении и прогнозировании экономической депрессии, исследовании конъюнктуры.
В разнообразных маркетинговых исследованиях.
Когда нужно преобразовать «горы» информации в пригодные для дальнейшего изучения группы, используют кластерный анализ.
Слайд 8Преимущества метода:
позволяет разбивать многомерный ряд сразу по целому набору параметров;
можно
рассматривать данные практически любой природы (нет ограничений на вид исследуемых
объектов);
можно обрабатывать значительные объемы информации, резко сжимать их, делать компактными и наглядными;
может применяться циклически (проводится до тех пор, пока не будет достигнут нужный результат; а после каждого цикла возможно значительное изменение направленности дальнейшего исследования).
Кластерный анализ имеет и свои недостатки:
состав и количество кластеров зависит от заданного критерия разбиения;
при преобразовании исходного набора данных в компактные группы исходная информация может искажаться, отдельные объекты могут терять свою индивидуальность;
часто игнорируется отсутствие в анализируемой совокупности некоторых значений кластеров.
Слайд 9Данные для кластерного анализа
Кластерный анализ можно применять к интервальным данным,
частотам, бинарными данным. Важно, чтобы переменные изменялись в
сравнимых шкалах
Чтобы устранить
неоднородность измерения
исходных данных, все их значения предварительно нормируются, т.е. выражаются через отношение этих значений к некоторой величине,
отражающей определенные свойства данного показателя
Цихончик Н.В., 2016
Слайд 10Кластер
Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу
единиц
Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер
кластера.
Центр кластера - это среднее геометрическое место точек в пространстве переменных.
Радиус кластера - максимальное расстояние точек от центра кластера.
Цихончик Н.В., 2016
Слайд 11Методы кластерного анализа
Методы кластерного анализа можно разделить на две
группы:
иерархические;
неиерархические.
В качестве основных методов анализа пакет STATISTICA предлагает
Joining (tree clustering) – группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно, и K-Means Clustering (метод К-средних), в котором пользователь заранее определяет количество кластеров.
Цихончик Н.В., 2016
Слайд 12Методы кластерного анализа: иерархические
Суть иерархической кластеризации состоит в последовательном
объединении меньших кластеров в большие или разделении больших кластеров на
меньшие
используются при небольших объемах наборов данных
Преимуществом является их наглядность
связаны с построением дендрограмм
Цихончик Н.В., 2016
Слайд 13Дендрограмма
Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из
которых соответствует одному из шагов процесса последовательного укрупнения кластеров.
Цихончик
Н.В., 2016
Слайд 14Определение количества кластеров
способ сводится к определению скачкообразного увеличения некоторого
коэффициента, который характеризует переход от сильно связанного к слабо связанному
состоянию объектов
Цихончик Н.В., 2016
Слайд 15Методы кластерного анализа: неиерархические
основанные на разделении, которые представляют собой
итеративные методы дробления исходной совокупности
В процессе деления новые кластеры формируются
до тех пор, пока не будет выполнено правило остановки
Цихончик Н.В., 2016
Слайд 16Практическая часть - построение кластеров в программе Excel
Слайд 17С помощью кластерного анализа можно проводить выборку по признаку, который
исследуется. Его основная задача – разбиение многомерного массива на однородные
группы.
В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.
Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.
Слайд 18Пример использования
Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.
Слайд 19Шаг 1
Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется
по шаблону:
=КОРЕНЬ((x2-x1)^2+(y2-y1)^2)
Данное значение вычисляем между каждым из пяти объектов. Результаты
расчета помещаем в матрице расстояний.
Слайд 20Шаг 1
=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)
Слайд 21Шаг 2
Смотрим, между какими значениями дистанция меньше всего. В нашем
примере — это объекты 1 и 2. Расстояние между ними составляет 13,41641, что
меньше, чем между любыми другими элементами данной совокупности.
Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента.
Слайд 23Шаг 3
Опять смотрим, между какими элементами расстояние минимально.
На этот
раз – это объект 5 и группа объектов 1,2. Дистанция составляет 15,65248.
Слайд 24Шаг 3
Добавляем указанные элементы в общий кластер. Формируем новую матрицу
по тому же принципу, что и в предыдущий раз. То
есть, ищем самые меньшие значения.
Слайд 25Шаг 4
Добавляем указанные элементы в общий кластер. Формируем новую матрицу
по тому же принципу, что и в предыдущий раз. То
есть, ищем самые меньшие значения.
Слайд 26Шаг 4
Таким образом, мы видим, что нашу совокупность данных можно
разбить на два кластера. В первом кластере находятся наиболее близкие
между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 38,69936.
Слайд 27Шаг 5
На этом завершается процедура разбиения совокупности на группы.
1 кластер
– респонденты, у которых расходы на питание составляют большую часть
дохода (4 из 5 человек, т.е. 80%)
2 кластер – это респондент, расходы на питание которого составляют меньшую часть бюджета (1 из 5 человек, т.е. 20% выборки).
Слайд 31Задание к следующему занятию
Факторный анализ: понятие и назначение процедуры.
Процедура факторного
анализа.