Разделы презентаций


Алгоритмы обучения без учителя

Содержание

Алгоритм MAXMINРассмотрим алгоритм, более эффективный по сравнению с предыдущим и являющийся улучшением порогового алгоритма. Исходными даннымы для работы алгоритма будет, как и раньше, выборка X. Объекты этой выборки следует разделить на

Слайды и текст этой презентации

Слайд 1Алгоритмы обучения без учителя

Алгоритмы обучения без учителя

Слайд 2Алгоритм MAXMIN
Рассмотрим алгоритм, более эффективный по сравнению с предыдущим и

являющийся улучшением порогового алгоритма. Исходными даннымы для работы алгоритма будет,

как и раньше, выборка X. Объекты этой выборки следует разделить на классы, число и характеристики которых заранее неизвестны.
Алгоритм MAXMINРассмотрим алгоритм, более эффективный по сравнению с предыдущим и являющийся улучшением порогового алгоритма. Исходными даннымы для

Слайд 3Алгоритм MAXMIN
На первом этапе алгоритма все объекты разделяются по классам

на основе критерия минимального расстояния от точек-прототипов этих классов (первая

точка-прототип может выбираться произволь­о). Затем в каждом классе выбирается объект, наиболее удаленный от своего прототипа. Если он удален от своего прототипа на расстояние, превышающее пороговое, такой объект становится прототипом нового класса.
Алгоритм MAXMINНа первом этапе алгоритма все объекты разделяются по классам на основе критерия минимального расстояния от точек-прототипов

Слайд 4В этом алгоритме пороговое расстояние не является фиксированным, а определяется

на основе среднего расстояния между всеми точками-прототипами, то есть корректируется

в процессе работы алгоритма. Если в ходе распределения объектов выборки X по классам были созданы новые прототипы, процесс распределения повторяется. Таким образом, в алгоритме MAXMIN окончательным считается разбиение, для которого в каждом классе расстояние от точки-прототипа до всех объектов этого класса не превышает финального значения порога Т.
В этом алгоритме пороговое расстояние не является фиксированным, а определяется на основе среднего расстояния между всеми точками-прототипами,

Слайд 5Алгоритм
Выбрать точку-прототип первого класса (например, объект Х1 из обучающей выборки).

Количество классов К положить равным 1. Обозначить точку-прототип Z1.
Определить наиболее

удаленный от Z1 объект Xf по условию
D(Z1,Xf) = max D(Z1, Xi),
где D(Z1,Xf) - расстояние между Z1 и Xf, вычисленное одним из возможных способов. Объявить Xf прототипом второго класса. Обозначить Xf как Z2. Число классов К = К + 1.

АлгоритмВыбрать точку-прототип первого класса (например, объект Х1 из обучающей выборки). Количество классов К положить равным 1. Обозначить

Слайд 6Алгоритм

Алгоритм

Слайд 7Алгоритм

Алгоритм

Слайд 8Рассмотрим работу алгоритма MAXMIN на примере. Как и в предыдущем

случае выберем объекты, которые заданы двумя признаками. Обучающая выборка представлена

на рис.
Рассмотрим работу алгоритма MAXMIN на примере. Как и в предыдущем случае выберем объекты, которые заданы двумя признаками.

Слайд 28Проблемы алгоритма K-средних:
необходимо заранее знать количество кластеров.
алгоритм очень чувствителен

к выбору начальных центров кластеров. Классический вариант подразумевает случайный выбор

кластеров, что очень часто являлось источником погрешности. Как вариант решения, необходимо проводить исследования объекта для более точного определения центров начальных кластеров.
не справляется с задачей, когда объект принадлежит к разным кластерам в равной степени или не принадлежит ни одному.
Проблемы алгоритма K-средних:необходимо заранее знать количество кластеров. алгоритм очень чувствителен к выбору начальных центров кластеров. Классический вариант

Слайд 31Нечеткий алгоритм кластеризации с-means
С последней проблемой k-means успешно справляется

алгоритм с-means. Вместо однозначного ответа на вопрос к какому кластеру

относится объект, он определяет вероятность того, что объект принадлежит к тому или иному кластеру. Таким образом, утверждение «объект А принадлежит к кластеру 1 с вероятностью 90%, к кластеру 2 — 10% » верно и более удобно.
Классический пример с-means — т.н. «бабочка» (butterfly):
Нечеткий алгоритм кластеризации с-means С последней проблемой k-means успешно справляется алгоритм с-means. Вместо однозначного ответа на вопрос

Слайд 33Алгоритм ISODATA (Iterative Self-Organizing Data Analysis Techniques) основывается на алгоритме

k средних, но включает набор оказавшихся полезными на практике эвристик

и параметры по их настройке. Одним из задаваемых априори параметров является желаемое число кластеров K.
Алгоритм ISODATA (Iterative Self-Organizing Data Analysis Techniques) основывается на алгоритме k средних, но включает набор оказавшихся полезными

Слайд 34Это число выступает в качестве рекомендации: в результате работы алгоритма

может быть построено как меньшее, так и большее число кластеров,

но оно будет не сильно отличаться от значения K. Сам алгоритм здесь детально описываться не будет (в целом, в нем используются те же шаги, что и в алгоритме k средних); приведем лишь основные эвристики.
Это число выступает в качестве рекомендации: в результате работы алгоритма может быть построено как меньшее, так и

Слайд 35Ликвидируются кластеры, в состав которых входит менее чем заданное число

элементов.
Для каждого текущего кластера определяется направление максимальной вытянутости. Наиболее вытянутый

кластер может быть расщеплен на два.
Ликвидируются кластеры, в состав которых входит менее чем заданное число элементов.Для каждого текущего кластера определяется направление максимальной

Слайд 36Решение о расщеплении принимается с учетом размера кластера в направлении

вытянутости (этот размер может сравниваться с фиксированным порогом и отклонением

от среднего размера всех кластеров, а также общего числа кластеров, которое должно быть мало (с учетом параметра K).
Попарно сливаются кластеры, расстояние между центрами которых меньше заданного порога, если число кластеров велико (с учетом параметра K).
Решение о расщеплении принимается с учетом размера кластера в направлении вытянутости (этот размер может сравниваться с фиксированным

Слайд 38Использующиеся в алгоритме ISODATA эвристики помогают не только подбирать более

подходящее число классов, но и находить более приемлемое решение, несколько

ослабляя (но не убирая полностью) зависимость от начальной гипотезы.
Использующиеся в алгоритме ISODATA эвристики помогают не только подбирать более подходящее число классов, но и находить более

Слайд 56Задача минимизации количества решающих функций, достаточных для классификации образов, может

быть очень важна, особенно если количество классов d велико. Если

представить себе, с каким количеством классов объектов (или понятий) имеет дело человек, становится ясно, что решение этой проблемы в том или ином виде потребуется при разработке универсальной системы машинного обучения. Мы, однако, этот вопрос здесь рассматривать не будем, а перейдем к проблеме распознавания образов.
Задача минимизации количества решающих функций, достаточных для классификации образов, может быть очень важна, особенно если количество классов

Слайд 59Прямого ответа на этот вопрос можно избежать, если конструировать методы

распознавания на основе неких эвристических соображений. Два наиболее широко распространенных

эвристических метода – это метод эталонных образов и метод ближайшего соседа.
Метод эталонных образов
Метод эталонных образов – это один из эвристических методов построения решающих правил. В основу этого метода положена идея, которая заключается в том, что некоторая совокупность объектов, объединенных в отдельный класс, может быть представлена одним или несколькими эталонными объектами.
Прямого ответа на этот вопрос можно избежать, если конструировать методы распознавания на основе неких эвристических соображений. Два

Слайд 60Эти эталонные объекты являются наиболее типичными представителями класса. Типичность эталонного

объекта означает, что он в среднем максимально похож на все

объекты класса.
Поскольку сходство двух объектов может трактоваться как величина, противоположная расстоянию между ними в пространстве описаний (образов), то эталон – это объект, для которого минимально среднее расстояние до других объектов.
Эти эталонные объекты являются наиболее типичными представителями класса. Типичность эталонного объекта означает, что он в среднем максимально

Слайд 62Классы, однако, могут обладать разными свойствами. Простейшим свойством является характерный

размер класса, который может быть оценен как

Классы, однако, могут обладать разными свойствами. Простейшим свойством является характерный размер класса, который может быть оценен как

Слайд 65В соответствии с данным решающим правилом просматривается вся обучающая выборка,

в ней находится образ, расположенный наиболее близко к данному и

устанавливается, к какому классу он принадлежит (это известно, поскольку он находится в обучающей выборке). Этот класс и приписывается новому образу.
В соответствии с данным решающим правилом просматривается вся обучающая выборка, в ней находится образ, расположенный наиболее близко

Слайд 66Метод ближайшего соседа весьма чувствителен к выбросам, то есть тем

образам обучающей выборки, для которых указаны ошибочные классы. В методе

k-ближайших соседей выбирается k образов обучающей выборки, наиболее близко расположенных к классифицируемому образу, и определяется, к какому классу относится больше всего из них. Поскольку выбросов, как правило, значительно меньше, чем правильных примеров, можно надеяться, что среди k ближайших соседей выбросов будет мало, и они не окажут влияния на результат классификации.
Метод ближайшего соседа весьма чувствителен к выбросам, то есть тем образам обучающей выборки, для которых указаны ошибочные

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика