Кластерный анализ и информационный поиск

Содержание

1. Кластерный анализ и информационный поиск
2. © ElVisti Понятие «кластерного анализа»Пример кластеров сайтов
3. © ElVisti Понятие информационного портретаПортрет - модель
4. © ElVisti Взвешивание потока документов в пространстве
5. © ElVisti Латентное семантическое индексированиеМетод кластерного анализа
6. © ElVisti Взаимосвязь тем и метод k-meansСуть
7. © ElVisti Группировка тем метод k-means
8. © ElVisti Метод, основанный на применениисетевого подхода - выявление сюжетов
9. © ElVisti Построение адаптивныхинтерфейсов уточнения запросов
10. © ElVisti Спасибо за внимание!Ландэ Д.Вdwl@visti.nethttp://poiskbook.kiev.uaМЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ Киев, Украина
11. Скачать презентанцию

© ElVisti Понятие «кластерного анализа»Пример кластеров сайтов - «групп подобия по контенту»(www touchgraph.com)Кластерный анализ - метод группировки экспериментальных данных в классы. Наблюдения, попавшие в один класс, в некотором смысле ближе друг

Главная
Информатика
Кластерный анализ и информационный поиск

Слайды и текст этой презентации

Слайд 1© ElVisti
Лекция 7
“Кластерный анализ
и информационный поиск”
Дмитрий Владимирович ЛАНДЭ
МЕЖДУНАРОДНЫЙ

СОЛОМОНОВ УНИВЕРСИТЕТ

Слайд 2© ElVisti

Понятие «кластерного анализа»
Пример кластеров сайтов - «групп подобия

по контенту»
(www touchgraph.com)
Кластерный анализ - метод группировки экспериментальных данных в

классы. Наблюдения, попавшие в один класс, в некотором смысле ближе друг к другу, чем к наблюдениям из других классов. (Глоссарий.ru)

© ElVisti Понятие «кластерного анализа»Пример кластеров сайтов - «групп подобия по контенту»(www touchgraph.com)Кластерный анализ - метод группировки

Слайд 3© ElVisti

Понятие информационного портрета
Портрет - модель реального объекта, выраженную

его наиболее узнаваемыми чертами.
Информационный портрет документа - статистически значимая

совокупность информационных характеристик.
В качестве информационного портрета темы можно рассматривать множество ключевых слов, наиболее точно (по статистическим и смысловым алгоритмам) отражающее информацию, соответствующую данной теме.
Тематической рубрике соответствует ее информационный портрет:
Pi = { vij}, (j=1,..,K),
где vij –весовой коэффициент, соответствующий j-му терм, K - количество термов в словаре системы.

© ElVisti Понятие информационного портретаПортрет - модель реального объекта, выраженную его наиболее узнаваемыми чертами. Информационный портрет документа

Слайд 4© ElVisti

Взвешивание потока документов в пространстве информационного портрета
М =

{mij} (i = 1,..,N; j = 1,..,K) - матрица соответствия

потока документов D информационному портрету l.
D={di} {i=1,K}. di – определяется как TF*IDF.
Близость D и Pi – sim(D, Pi) – скалярное произведение K-мерных векторов.
Алгоритм взвешивания:

© ElVisti Взвешивание потока документов в пространстве информационного портретаМ = {mij} (i = 1,..,N; j = 1,..,K)

Слайд 5© ElVisti

Латентное семантическое индексирование
Метод кластерного анализа LSI (латентного семантического

индексирования), базируется на сингулярном разложении матриц (SVD). Сингулярным разложением матрицы

A называется ее разложение вида A=USVT, где U и V – ортогональные матрицы, а S – диагональная матрица, элементы которой sij = 0, если i не равно j, а siі >= 0. В рассматриваемом примере (таблиц взаимосвязей) матрица А = МT М – квадратная, однако метод LSI применяется и к прямоугольным матрицам, но в этих случаях размерность матрицы S соответствует рангу матрицы А.
В соответствии с методом LSI в рассмотрение берутся k наибольших сингулярных значений, а каждому такому сингулярному значению матрицы А соответствует кластер взаимосвязанных документов. А аппроксимируется матрицей Ak = Σ ui sii viT.
Метод LSI применим и к ранжированию выдачи информационно-поисковых систем, основанному на цитировании. Это алгоритм HITS (Hyperlink Induced Topic Search) – один из двух самых популярных на сегодня в области информационного поиска.
Ввиду своей вычислительной трудоемкости (равной O(N2), N –
размерность А), этот метод LSI применяется только для относительно небольших матриц.

© ElVisti Латентное семантическое индексированиеМетод кластерного анализа LSI (латентного семантического индексирования), базируется на сингулярном разложении матриц (SVD).

Слайд 6© ElVisti

Взаимосвязь тем и метод k-means
Суть алгоритма k-means: случайным

образом выбирается k векторов-строк, которые определяются как центроиды кластеров. Затем

k кластеров наполняются – для каждого из оставшихся векторов-строк определяется близость к центроиду соответствующего кластера. После этого вектор-строка приписывается к тому кластеру, к которому он наиболее близок.
После этого строки-векторы перегруппируются. Затем для каждого из новых кластеров заново определяется центроид. После этого заново выполняется процесс наполнения кластеров и т. д., пока процесс не стабилизируется или не зациклится.

© ElVisti Взаимосвязь тем и метод k-meansСуть алгоритма k-means: случайным образом выбирается k векторов-строк, которые определяются как

от метода LSI, k-means идеально подходит для кластеризации динамических информационных

потоков.
Укрупнение рубрик – актуальная задача кластерного анализа и она может быть решена путем их группировки по признакам подобия.
Выделение групп взаимосвязанных рубрик методом кластерного анализа k-means:

© ElVisti Группировка тем метод k-means В отличие от метода LSI, k-means идеально подходит для

© ElVisti Метод, основанный на применениисетевого подхода - выявление сюжетов

© ElVisti Построение адаптивныхинтерфейсов уточнения запросов

Слайд 10© ElVisti
Спасибо за внимание!
Ландэ Д.В
dwl@visti.net
http://poiskbook.kiev.ua

МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ
Киев, Украина

Скачать презентацию

Теги

Разделы презентаций

Кластерный анализ и информационный поиск

Содержание

Слайды и текст этой презентации

Слайд 1© ElVisti
Лекция 7
“Кластерный анализ
и информационный поиск”
Дмитрий Владимирович ЛАНДЭ
МЕЖДУНАРОДНЫЙ

СОЛОМОНОВ УНИВЕРСИТЕТ

Слайд 2© ElVisti

Понятие «кластерного анализа»
Пример кластеров сайтов - «групп подобия

по контенту»
(www touchgraph.com)
Кластерный анализ - метод группировки экспериментальных данных в

Слайд 3© ElVisti

Понятие информационного портрета
Портрет - модель реального объекта, выраженную

его наиболее узнаваемыми чертами.
Информационный портрет документа - статистически значимая

Слайд 4© ElVisti

Взвешивание потока документов в пространстве информационного портрета
М =

{mij} (i = 1,..,N; j = 1,..,K) - матрица соответствия

Слайд 5© ElVisti

Латентное семантическое индексирование
Метод кластерного анализа LSI (латентного семантического

индексирования), базируется на сингулярном разложении матриц (SVD). Сингулярным разложением матрицы

Слайд 6© ElVisti

Взаимосвязь тем и метод k-means
Суть алгоритма k-means: случайным

образом выбирается k векторов-строк, которые определяются как центроиды кластеров. Затем

Слайд 7© ElVisti

Группировка тем метод k-means
В отличие

от метода LSI, k-means идеально подходит для кластеризации динамических информационных

Слайд 8© ElVisti

Метод, основанный на применении
сетевого подхода - выявление сюжетов

Слайд 9© ElVisti

Построение адаптивных
интерфейсов уточнения запросов

Слайд 10© ElVisti
Спасибо за внимание!
Ландэ Д.В
dwl@visti.net
http://poiskbook.kiev.ua

МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ
Киев, Украина

Обратная связь

Что такое TheSlide.ru?

Разделы презентаций

Кластерный анализ и информационный поиск

Содержание

Слайды и текст этой презентации

Слайд 1© ElVisti Лекция 7“Кластерный анализи информационный поиск” Дмитрий Владимирович ЛАНДЭМЕЖДУНАРОДНЫЙ

СОЛОМОНОВ УНИВЕРСИТЕТ

Слайд 2© ElVisti Понятие «кластерного анализа»Пример кластеров сайтов - «групп подобия

по контенту»(www touchgraph.com)Кластерный анализ - метод группировки экспериментальных данных в

Слайд 3© ElVisti Понятие информационного портретаПортрет - модель реального объекта, выраженную

его наиболее узнаваемыми чертами. Информационный портрет документа - статистически значимая

Слайд 4© ElVisti Взвешивание потока документов в пространстве информационного портретаМ =

{mij} (i = 1,..,N; j = 1,..,K) - матрица соответствия

Слайд 5© ElVisti Латентное семантическое индексированиеМетод кластерного анализа LSI (латентного семантического

индексирования), базируется на сингулярном разложении матриц (SVD). Сингулярным разложением матрицы

Слайд 6© ElVisti Взаимосвязь тем и метод k-meansСуть алгоритма k-means: случайным

образом выбирается k векторов-строк, которые определяются как центроиды кластеров. Затем

Слайд 7© ElVisti Группировка тем метод k-means В отличие

от метода LSI, k-means идеально подходит для кластеризации динамических информационных

Слайд 8© ElVisti Метод, основанный на применениисетевого подхода - выявление сюжетов

Слайд 9© ElVisti Построение адаптивныхинтерфейсов уточнения запросов

Слайд 10© ElVisti Спасибо за внимание!Ландэ Д.Вdwl@visti.nethttp://poiskbook.kiev.uaМЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ Киев, Украина

Похожие презентации

Обратная связь

Что такое TheSlide.ru?

Слайд 1© ElVisti
Лекция 7
“Кластерный анализ
и информационный поиск”
Дмитрий Владимирович ЛАНДЭ
МЕЖДУНАРОДНЫЙ

Слайд 2© ElVisti

Понятие «кластерного анализа»
Пример кластеров сайтов - «групп подобия

по контенту»
(www touchgraph.com)
Кластерный анализ - метод группировки экспериментальных данных в

Слайд 3© ElVisti

Понятие информационного портрета
Портрет - модель реального объекта, выраженную

его наиболее узнаваемыми чертами.
Информационный портрет документа - статистически значимая

Слайд 4© ElVisti

Взвешивание потока документов в пространстве информационного портрета
М =

Слайд 5© ElVisti

Латентное семантическое индексирование
Метод кластерного анализа LSI (латентного семантического

Слайд 6© ElVisti

Взаимосвязь тем и метод k-means
Суть алгоритма k-means: случайным

Слайд 7© ElVisti

Группировка тем метод k-means
В отличие

Слайд 8© ElVisti

Метод, основанный на применении
сетевого подхода - выявление сюжетов

Слайд 9© ElVisti

Построение адаптивных
интерфейсов уточнения запросов

Слайд 10© ElVisti
Спасибо за внимание!
Ландэ Д.В
dwl@visti.net
http://poiskbook.kiev.ua

МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ
Киев, Украина