Разделы презентаций


Статистические модели группировки

Содержание

С точки зрения задачи кластеризации задача ставится следующим образом: есть некоторый многомерный параметр, которым описывается конечная смесь.Статистические модели группировки (С; p1,p2,…pc,)=- многомерный параметр.Мы должны оценить вектор этого многомерного параметра.Каждый максимум соответствует

Слайды и текст этой презентации

Слайд 1






Статистические модели группировки
Статистические модели группировки

основываются на вероятностной
оценки наших данных , при этом мы

предполагаем, что наши данные
могут относится к одному из возможных распределений (количеству групп).

Для каждой группы задается априорная вероятность Р1,Р2 ,…Рс

Для каждой группы имеется условная плотность распределения:


Общая функция плотности вероятности определяется следующим образом:


Мы имеем объекты, которые описываются моделью конечной смеси - это и есть


Статистические модели группировки Статистические модели группировки основываются на вероятностной оценки наших данных ,

Слайд 2С точки зрения задачи кластеризации задача ставится следующим образом:
есть

некоторый многомерный параметр, которым описывается конечная смесь.
Статистические модели группировки
(С;

p1,p2,…pc,

)=


- многомерный параметр.

Мы должны оценить вектор этого многомерного параметра.


Каждый максимум соответствует некоторому параметру этой смеси.

С точки зрения задачи кластеризации задача ставится следующим образом: есть некоторый многомерный параметр, которым описывается конечная смесь.Статистические

Слайд 3Предполагается, что смесь различима, если можно однозначно восстановить эти
параметры.


Восстановить эти параметры можно из условия:

если из этого условия однозначно

следует выполнение следующего:

С=С1



2)

В общем виде эта задача решается как задача оценки многомерного параметра.
Лучше всего решать ее по методу максимального правдоподобия


С - известно.
Строится функция правдоподобия:


Статистические модели группировки

Предполагается, что смесь различима, если можно однозначно восстановить эти параметры. Восстановить эти параметры можно из условия:если из

Слайд 4Статистические модели группировки
Эта задача по постановке и по решению

достаточно сложная .
Аналитическое решение получить достаточно сложно.
В основном

процедуры основаны на рекуррентных методах.

Для случаев нормального распределения и когда С- известно эту задачу можно
решать приближенно более простым способом (например методом к-средних).

Метод к-средних позволяет найти центры соответствующих локальных
максимумов:



Находим mi i =1..C

2) Разбиваем выборку

на кластеры

Статистические модели группировки Эта задача по постановке и по решению достаточно сложная . Аналитическое решение получить достаточно

Слайд 5Далее мы считаем , что метод к-средних дает нам правильное

разбиение на кластеры
Статистические модели группировки
3) Мы должны для любого

i оценить :


, где

-матрица ковариации

В результате этой деятельности мы для каждого кластера получаем следующее:


Далее мы считаем , что метод к-средних дает нам правильное разбиение на кластерыСтатистические модели группировки 3) Мы

Слайд 6
Далее мы строим f(x) следующим образом:
Статистические модели группировки
Мы для

заданной выборки
построим аппроксимацию ее нормального распределения.

Далее мы строим f(x) следующим образом:Статистические модели группировки Мы для заданной выборки построим аппроксимацию ее нормального распределения.

Слайд 7Мы можем найти сложные решающие функции. Это функции равной плотности


некоего распределения. Далее функцию сложной плотности можно представить в виде


суммы простых функций распределений.

Статистические модели группировки

Статистическое решающее правило можно представить в следующем виде:


Есть 2 способа провести классификацию:
- отношение правдоподобия
- классификация по минимуму расстояния


? расстояние Махланобиса.

Мы можем найти сложные решающие функции. Это функции равной плотности некоего распределения. Далее функцию сложной плотности можно

Слайд 8Алгоритм автоматической классификации на основе
кластер-анализа
В данном разделе рассматривается

классификации, использующий кластер-анализ для
формирования подклассов “сложного класса”.
Алгоритм ориентирован

на описание данных с использованием аппроксимации
плотностей вероятностей смесью нормальных распределений.

Пусть имеется некоторый класс

Предполагаем, что он может быть представлен в виде


где

- подклассы, рассматриваемые как кластеры.

Пусть

- плотность распределения, соответствующая классу


- условная плотность распределения, соответствующая подклассу


- априорная вероятность появления объектов из подкласса

Тогда плотность вероятности распределения будет иметь вид


Алгоритм автоматической классификации на основе кластер-анализа В данном разделе рассматривается классификации, использующий кластер-анализ для формирования подклассов “сложного

Слайд 9Логично сделать предположение, что центрами классов формируемого алфавита
являются существенные

максимумы функции
Поэтому цель кластеризации - определить совместную плотность распределения,


найти ее существенные максимумы, а следовательно и центры кластеров
и тем самым и число кластеров.


Алгоритм автоматической классификации на основе
кластер-анализа

Данная задача может быть решена методами стохастической аппроксимации,
полагая, что искомая совместная плотность распределения может быть
аппроксимирована конечным набором ортонормированных функций



Обозначив через


меру уклонения искомой плотности распределения от истинной, можно
сформулировать нашу задачу как задачу нахождения оптимального значения вектора
параметров


, минимизирующего функционал


Логично сделать предположение, что центрами классов формируемого алфавита являются существенные максимумы функции Поэтому цель кластеризации - определить

Слайд 10С учетом ортонормированности вектор-функции
Алгоритм автоматической классификации на основе
кластер-анализа



оптимальное значение вектора

Последнее значение может быть получено по предъявленной

на этапе кластеризации
обучающей выборке.

Найдя


можно легко определить функцию


Анализ которой и определение существенных максимумов дает возможность
определить число кластеров, границы кластеров и построить решающее правило
кластеризации.

Однако практическая реализация изложенного подхода связана с большими
затруднениями, ввиду чего на практике применяется большое количество более
простых эвристических алгоритмов.

Поэтому был предложен несколько модифицированный алгоритм класса ISODATA,
получивший название алгоритм "адаптивного выбора подклассов" (АВП).

С учетом ортонормированности вектор-функции Алгоритм автоматической классификации на основе кластер-анализа оптимальное значение вектора Последнее значение может быть

Слайд 11Алгоритм “адаптивного выбора подклассов”
На начальном этапе пользователем задаются:

максимальное предполагаемое количество

подклассов.

- минимально допустимая мощность кластера
(количество векторов обучающей выборки,

отнесенных в соответствующий кластер)

Процесс кластер-анализа заключается в попытке аппроксимации функции
совместной плотности распределения


с помощью смеси нормальных плотностей распределения каждая компонента
этой смеси представляется в виде



- вектор математического ожидания i-кластера;


- матрица ковариации i-кластера;


- размерность вектора классификационных признаков;

Алгоритм “адаптивного выбора подклассов”На начальном этапе пользователем задаются:максимальное предполагаемое количество подклассов. - минимально допустимая мощность кластера (количество

Слайд 12Алгоритм “адаптивного выбора подклассов”
С целью упрощения процедуры формирования кластеров в

рассматриваемом
алгоритме в режиме обучения было использовано допущение диагональной структуре
матрицы

ковариации

В соответствии с этим каждая нормальная компонента смеси представляется в виде



- компоненты вектора


- диагональные элементы ковариационной матрицы

цель классификации будет достигнута, если будут получены оценки параметров



Алгоритм “адаптивного выбора подклассов”С целью упрощения процедуры формирования кластеров в рассматриваемом алгоритме в режиме обучения было использовано

Слайд 13
Алгоритм “адаптивного выбора подклассов”
- вектор дисперсий
в системе кластеризации после

окончания обучения обеспечивается вычисление
полной ковариационной матрицы соответствующих кластеров
Введем

следующие обозначения:

Мода с номером

1)


Модой будем называть область векторов в пространстве признаков


близких к


В качестве метрики используется квадрат эвклидова расстояния

2)

Моду с номером


будем называть свободной, если ее параметр


мода

свободна при



- Число векторов, входящих в моду.

Алгоритм “адаптивного выбора подклассов”- вектор дисперсий в системе кластеризации после окончания обучения обеспечивается вычисление полной ковариационной матрицы

Слайд 143)
Положим по определению

4)
Обозначим через

порог

-ой моды,

а через вектор

вторых моментов
-ой моды
5)
Кластер
и таксон


есть синоним термина мода

Алгоритм “адаптивного выбора подклассов”

3) Положим по определению 4) Обозначим через порог -ой моды, а через вектор вторых моментов -ой моды5)

Слайд 15Начальные значения параметров

Первый цикл итерации по обучающей выборке заключается

в следующем.
Пусть на вход АВП поступили первые

векторов обучающей

выборки


Так как у нас на начальном этапе имеется

то указанные вектора становятся начальными векторами мод

свободных мод,





для

Начиная с


алгоритм выходит на поиск ближайшей к данному вектору

-го вектора


моды


Алгоритм “адаптивного выбора подклассов”

Начальные значения параметров Первый цикл итерации по обучающей выборке заключается в следующем. Пусть на вход АВП поступили

Слайд 16Если выполняется условие

что можно рассматривать как вхождение вектора
то

происходит уточнение параметров данной моды по формулам
в указанную моду,



и

происходит переход к анализу следующего вектора обучающей выборки.

Алгоритм “адаптивного выбора подклассов”

Если выполняется условие что можно рассматривать как вхождение вектора то происходит уточнение параметров данной моды по формулам

Слайд 17Если условие не выполняется, то осуществляется поиск двух ближайших
существующих

мод


и

Если вектор

ближе к

чем к

и


то происходит

уточнение параметров моды

и корректируется порог моды



В противном случае производится объединение двух ближайших мод

и


Алгоритм “адаптивного выбора подклассов”

Если условие не выполняется, то осуществляется поиск двух ближайших существующих мод иЕсли вектор ближе к чем к

Слайд 18


и мода с номером
становится свободной
Новый порог моды
определяется

по формуле

Освободившаяся мода с номером
становится центром вновь формируемой

на основании вектора


моды





Алгоритм “адаптивного выбора подклассов”

и мода с номером становится свободной Новый порог моды определяется по формуле Освободившаяся мода с номером становится

Слайд 19Происходит переход к анализу следующего вектора обучающей выборки
После просмотра

всех

векторов обучающей выборки
происходит оценка дисперсий кластеров

и вероятностей кластеров



Выявляются

состоятельные кластеры, то есть те кластеры, для которых выполняется
соотношение


Состоятельные кластеры перенумеровываются в порядке


И начинается второй этап итерации по обучающей выборке с целью уточнения
оценок параметров кластеров.

Алгоритм “адаптивного выбора подклассов”

Происходит переход к анализу следующего вектора обучающей выборки После просмотра всех векторов обучающей выборкипроисходит оценка дисперсий кластерови

Слайд 20Суть процесса уточнения параметров состоит в следующем. Для каждого
состоятельного

кластера производится предварительная классификация векторов
обучающей выборки с целью выявления

векторов, входящих в данный кластер.
Вектор считается входящим в данный кластер


если выполняется условие


где


Определяется уточненное значение центра кластера



Алгоритм “адаптивного выбора подклассов”

Суть процесса уточнения параметров состоит в следующем. Для каждого состоятельного кластера производится предварительная классификация векторов обучающей выборки

Слайд 21
где под

понимается множество векторов, относящихся к
-ому кластеру, а



оценки среднего, ковариационной матрицы и вероятностей кластеров
соответственно.
Полученные значения

и являются результатом автоматической кластеризации по
алгоритму АВП.

Сформированное множество состоятельных кластеров формирует алфавит
подклассов


соответственно отнесение некоторого вектора


к подклассу


может быть выполнено с использованием принципа максимальной апостериорной
вероятности по следующему правилу:

Алгоритм “адаптивного выбора подклассов”

где под понимается множество векторов, относящихся к -ому кластеру, а оценки среднего, ковариационной матрицы и вероятностей кластеров

Слайд 22Классифицируемый вектор

относится к подклассу
алфавита

, если


Рассмотренный алгоритм

может быть использован в нескольких вариантах:
Задана априорная классификация распознаваемых объектов

на классы

1)


Задача состоит в нахождении подклассов в каждом классе


с помощью

алгоритма АВП. Далее классификация объекта осуществляется по критерию
минимального расстояния


Алгоритм “адаптивного выбора подклассов”

Классифицируемый вектор относится к подклассу алфавита , если Рассмотренный алгоритм может быть использован в нескольких вариантах:Задана априорная

Слайд 232)
Не задана априорная классификация объектов на классы.
В этом случае

задача эквивалентна обычной задаче кластеризации данных
(или “обучение без учителя”

в терминах теории распознавания образов).
Этот режим использования алгоритма является весьма важным для изучения
структуры признакового пространства с целью выявления
“объективных классов”. Далее представляется важным сравнение
“объективных классов” с классами, которые определяет эксперт.

Алгоритм “адаптивного выбора подклассов”

2)Не задана априорная классификация объектов на классы. В этом случае задача эквивалентна обычной задаче кластеризации данных (или

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика