Слайд 1ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ
ТЕМА ЛЕКЦИИ: «ХРАНИЛИЩА ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ
ДАННЫХ»
Массель Л.В., д.т.н., профессор кафедры Автоматизированных систем факультета Кибернетики ИрГТУ
Слайд 2КОНЦЕПЦИЯ DATA WAREHOUSE И КОРПОРАТИВНЫЕ ЗНАНИЯ
Data Warehouse переводят на русский
язык как Хранилище Данных (ХД) или Склад Данных (СД). Хранилище
данных - не то же самое, что база данных, хотя реализация может выполняться на основе некоторой СУБД или распределенной СУБД (РаСУБД).
Хранилище данных - логически интегрированный источник данных для систем поддержки принятия решений и информационных систем руководства.
Назначение ХД - информационная поддержка принятия решений, а не оперативная обработка данных. Например, ХД могут быть ориентированы не на поддержку вычислительных экспериментов, т.е. проведение расчетов по выбранным моделям (это задача операционных баз данных), а на накопление результатов вычислительных экспериментов, прошедших первоначальный анализ и, по возможности, агрегированных, иначе говоря, подготовленных для дальнейшего анализа экспертами.
Слайд 3КОНЦЕПЦИЯ DATA WAREHOUSE И КОРПОРАТИВНЫЕ ЗНАНИЯ
Хранилища данных ориентированы на определенную
предметную область и организуются на основе некоторых подмножеств данных, поступающих
из операционных баз данных.
Источниками информации для них являются : разные приложения, которые могут выполняться на разных платформах (разные типы ЭВМ и штатного программного обеспечения), что требует применения средств интеграции.
Кроме того, в Хранилища данных поступают не все данные, а в той или иной степени обобщенная информация. По смыслу наиболее близкое к нему понятие - Корпоративные знания, которое можно понимать как общие знания организации.
Слайд 4KNOWLEDGE MANAGEMENT (УПРАВЛЕНИЕ ЗНАНИЯМИ) И INTRANET
Intranet представляет собой технологию управления
корпоративными коммуникациями, и в этом отличие ее от Internet, который
является технологией глобальных коммуникаций . При этом обязательным при организации Intranet является соблюдение международных стандартов Internet.
В реализации коммуникаций выделяют три уровня:
аппаратный, программный и информационный.
Главная отличительная особенность заключается в информационном уровне коммуникаций Intranet (аппаратный и программный уровни практически не отличаются).
В информационном уровне, в свою очередь, выделяются три подуровня (рис.):
фактические знания;
модели и представления;
описание корпоративных знаний.
Слайд 5ИНФОРМАЦИОННЫЙ УРОВЕНЬ КОММУНИКАЦИЙ
Описание корпоративных знаний
Модели и представления
Фактические знания
Слайд 6КОРПОРАТИВНЫЕ ЗНАНИЯ
Фактические знания - это конкретные предметные знания, представляющие собой
факты, выраженные в терминах предметной области (как правило, это информация,
хранимая в базах данных).
Модели и представления. Знания этого уровня иногда называют метаданными, т.е. данными, описывающими первичные данные (фактические знания). На этом уровне решается несколько задач:
Обеспечение единого представления деятельности организации всеми ее сотрудниками: единой системы понятий, целей деятельности и принципов их достижения, единых принципов поведения и мотивации (соглашений), единой системы классификаторов и нормативов (внутренних стандартов).
Обеспечение интерпретации и оценки первичных данных с точки зрения корпоративных знаний.
Обеспечение навигации по всему информационному пространству организации (в самом простом варианте - обеспечение информационного взаимодействия; в технологии Intranet: замена бумажных документов электронными страницами и файлами, доски объявлений - Web-сервером, записок и телефонных звонков - сообщениями электронной почты, оперативных обсуждений - телеконференциями).
Слайд 7КОРПОРАТИВНЫЕ ЗНАНИЯ
Описание корпоративных знаний. При использовании бумажно-телефонной технологии коммуникаций для
описания знаний используется, как правило, естественный язык. При переходе к
новым технологиям и увеличении объемов информации могут потребоваться специальные средства автоматизации, включая формальные языки описания знаний. Использование таких языков преследует решение нескольких задач:
обеспечение унификации представления знаний;
обеспечение однозначности толкования знаний всех уровней;
сведение процессов обработки информации к простым процедурам, допускающим их автоматизацию (навигация, поиск информации, организация связей между данными и др.).
Все три уровня образуют корпоративные знания , которые являются интеллектуальным капиталом организации ,
а управление знаниями (Knowledge management) рассматривается как одно из эффективных направлений управления организацией.
Слайд 8УПРАВЛЕНИЕ КОРПОРАТИВНЫМИ ЗНАНИЯМИ
В настоящее время выделяют три большие группы методов
управления:
а) ресурсами;
б) процессами;
в) корпоративными знаниями .
Главным корпоративным
ресурсом организации становится база корпоративных знаний, в которой сотрудники могут быстро найти информацию для принятия правильного решения и понимания друг друга. Эта база знаний концентрирует в себе коллективный опыт организации и создает контекст корпоративных коммуникаций .
Основная цель управления - обеспечение координации, коммуникации и быстрого поиска информации для самостоятельного принятия решений.
Эта группа методов управления сейчас переживает период бурного развития и получила общее название «управления знаниями» (Knowledge management). Стандарты на уровне моделей и универсальных языков описания пока отсутствуют (хотя некоторые тенденции наметились), методы управления поддерживаются информационно-поисковыми системами и Intranet -технологиями: Web-технологией, электронной почтой, телеконференциями. Для этих целей также разрабатывается и используется программное обеспечение класса GroupWare.
Слайд 9ПОДДЕРЖКА ПРИНЯТИЯ УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ
Статические СППР (Информационные Системы Руководителя)
содержат в
себе предопределенные множества запросов
Динамические СППР
Осуществляют поддержку управленческих решений в
трех базовых сферах:
Сфера детализированных данных
Сфера агрегированных показателей
Сфера закономерностей
Структура корпоративной информационно-аналитической системы (рис.)
Слайд 11СОВРЕМЕННЫЕ КОНЦЕПЦИИ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ: OLAP
Практика принятия решений показала, что
существует зависимость между частотой запросов и степенью агрегированности данных, с
которыми запросы оперируют, а именно, чем более агрегированными являются данные, тем чаще они запрашиваются. Другими словами, круг пользователей, работающих с обобщенными понятиями, шире, чем тот, для которого нужны детальные данные. Это наблюдение легло в основу подхода к поиску и выборке данных, называемого Оперативной аналитической обработкой ( On-line Analitical Processing, или OLAP).
В основе OLAP лежит понятие гиперкуба, или многомерного куба данных, а все данные, необходимые для принятия решений, предварительно агрегированы на всех соответствующих уровнях и организованы так, чтобы обеспечить максимально быстрый доступ к ним.
Выделяют :
многомерную аналитическую обработку (MOLAP),
реляционную аналитическую обработку (ROLAP)
клиентскую аналитическую обработку (DOLAP),
гибридный (Hybrid) OLAP (HOLAP), совмещающий достоинства и минимизирующий недостатки, присущие предыдущим классам.
Отличаются способами реализации и уровнем пользовательского интерфейса .
Слайд 12DATA MINING (ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ)
Data Mining переводится как "добыча" или
"раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение
знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Эта новая технология возникла на пересечении статистики, баз данных и искусственного интеллекта и привела к новому витку в развитии средств и методов обработки данных.
Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных.
Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации. Человек к тому же не способен улавливать более двух-трех взаимосвязей даже в небольших выборках.
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной сложной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.).
Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining).
Слайд 13DATA MINING (ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ)
Современные технологии Data Mining (discovery-driven data
mining) перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных
для каких-либо фрагментов неоднородных многомерных данных.
В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер.
ДРУГИМИ СЛОВАМИ, ЦЕЛЬ DATA MINING СОСТОИТ В ВЫЯВЛЕНИИ СКРЫТЫХ ПРАВИЛ И ЗАКОНОМЕРНОСТЕЙ В НАБОРАХ ДАННЫХ.
Слайд 14DATA MINING (ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ)
Методы Data Mining позволяют выделить пять
стандартных типов закономерностей:
ассоциация
последовательность
классификация
кластеризация
прогнозирование
Слайд 15ТИПЫ ЗАКОНОМЕРНОСТЕЙ В DATA MINING
Ассоциация имеет место в том
случае, если несколько событий связаны друг с другом. Типичным примером
ее проявления является анализ структуры покупок. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником, но не наоборот т.е. покупка холодильника не влечет за собой покупки дома..
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД. Если удается построить математическую модель и найти шаблоны, адекватно отражающие динамику изменения данных, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
Слайд 16МЕТОДЫ DATA MINING
В системах, поддерживающих Data Mining, применяются следующие
методы:
статистические,
нейронные сети,
рассуждения на основе аналогичных случаев (CBR –
case based reasoning),
деревья решений (decision trees),
генетические алгоритмы,
эволюционное программирование,
алгоритмы выявления ассоциаций.
Слайд 17ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ (ИАД)
Интеллектуальный Анализ Данных (ИАД) определяют также как
метод поддержки решений, основанный на анализе зависимостей между данными (самой
простой формой ИАД может быть обычный анализ отчетов, построенных по запросам к базе данных).
В более развитых технологиях рассматривают два подхода:
1) пользователь сам выдвигает гипотезы относительно зависимостей между данными;
2) зависимости между данными ищутся автоматически.
Синонимом ИАД можно считать процесс «извлечения знаний из баз данных».
Слайд 18ПРОЦЕССЫ ИАД
Процессы ИАД подразделяются на три большие группы:
поиск зависимостей,
прогнозирование,
анализ аномалий.
Поиск зависимостей состоит в просмотре базы данных
с целью автоматического выявления зависимостей (проблема состоит в отборе действительно важных зависимостей из числа существующих).
Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения, система же анализирует содержимое БД и находит правдоподобные значения.
Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых значений.
Слайд 19DATA MART (ВИТРИНЫ ДАННЫХ)
Под Витриной Данных понимают специализированное хранилище данных,
ориентированное на одно из подразделений организации.
Идея «Витрин Данных» (Data Mart)
возникла тогда, когда стало очевидно, что разработка и внедрение корпоративного Хранилища Данных требуют значительных предварительных усилий по анализу деятельности организации и переориентации ее на новые технологии.
Выделяются, как правило, два направления: накопление исторических данных и их анализ.
Существует уже специальный инструментарий, например, Data Mart Builder, способный извлекать данные из реляционных СУБД, и др.
Попытки создания Витрин Данных оказались весьма успешными, но сложность их последующей взаимосвязи не позволяет строить Хранилище Данных как совокупность Витрин Данных, поэтому рекомендуют разработку корпоративного Хранилища данных вести параллельно с разработкой и внедрением Витрин Данных
Слайд 20РЕПОЗИТАРИИ (ХРАНИЛИЩА МЕТАДАННЫХ)
Наличие метаданных является принципиальным отличием СППР на основе
Хранилища Данных от интегрированной системы управления организацией. В общем случае
метаданные помещаются в централизованно управляемый Репозитарий, в который включается информация:
о структуре данных Хранилища;
структурах данных, импортируемых из различных источников;
информация о самих источниках, методах загрузки и агрегирования данных;
сведения о средствах доступа, а также о правилах оценки и представления информации.
Репозитарий метаданных СППР на основе Хранилища Данных предназначен не только для профессионалов-разработчиков, но и для пользователей, которым он служит в качестве поддержки при формировании запросов.
Развитая система управления метаданными должна обеспечивать возможность управления понятиями со стороны пользователей, которые могут изменять содержание метаданных и образовывать новые понятия.
Возможность разработки Репозитариев метаданных на основе реляционных СУБД позволяет перенести акцент с трудностей реализации на определение содержания конкретных метаданных и методики работы с ними .
Слайд 21ТЕХНОЛОГИЯ РАЗРАБОТКИ ХРАНИЛИЩА ДАННЫХ
1. Анализ процессов и событий, существенных для
организации (например, процесс получения информационного продукта и события, влияющие на
этот процесс).
2. Анализ данных, используемых организацией (информация об используемых внешних данных и их источниках; о периодичности и форме поступления информации; о внутренних информационных системах организации, их функциях и форматах данных, а также алгоритмах обработки данных, используемых при наступлении события).
Слайд 22ТЕХНОЛОГИЯ РАЗРАБОТКИ ХРАНИЛИЩА ДАННЫХ
3. Разработка логической модели системы (ХД):
определение данных
и знаний, необходимых в процессе принятия решения и концептуальное проектирование
моделей данных и знаний;
распределение пользователей системы (географическое, организационное, функциональное);
доступ к данным: объем данных, необходимый для анализа, уровень агрегированности данных, источники данных (внешние или внутренние), описание информации, совместно используемой разными подразделениями;
аналитические характеристики системы: измерения данных, основные отчеты, последовательность преобразования аналитической информации, степень предопределенности анализа, существующие или разрабатываемые средства анализа.
Слайд 23ТЕХНОЛОГИЯ РАЗРАБОТКИ ХРАНИЛИЩА ДАННЫХ
4. Выбор аппаратной и программной платформ для
реализации системы и разработка программно-технологической архитектуры Хранилища Данных.
При этом следует
учесть, что СППР должна обеспечивать пользователю, при необходимости, возможность детализации данных. Руководитель или эксперт, получив интегрированное представление данных или выводы, сделанные на его основе, может затребовать более детальные сведения, уточняющие источник данных или причины выводов (это означает, что надо обеспечить связь СППР не только с Хранилищем Данных, но, и , при необходимости, с соответствующей операционной БД).
При выборе сетевого решения простейшей является архитектура «клиент-сервер». Традиционно Хранилище размещается на сервере (или на серверах), а аналитическая обработка и пользовательский интерфейс поддерживаются клиентом. Если двухуровневая архитектура начинает работать неэффективно из-за перегрузки клиента, вводят трехуровневую архитектуру «клиент-агент-сервер».
Слайд 24ТЕХНОЛОГИЯ РАЗРАБОТКИ ХРАНИЛИЩА ДАННЫХ
5. Заполнение Хранилища Данных.
Выделяют три взаимосвязанные задачи:
Сбор Данных (Data Acquisition), Очистка Данных (Data Cleansing) и Агрегирование
Данных (Data Concolidation).
Под Сбором Данных понимают процесс организации передачи данных из внешних источников в Хранилище Данных, а также процесс пополнения Хранилища Данных (в отличие от традиционных баз данных, он осуществляется путем «массовой загрузки», или передачи очередного среза («моментального снимка») из операционной базы данных (поэлементные изменения не предусматриваются).
Под Очисткой Данных понимается процесс модификации по ходу заполнения Хранилища: исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов (например. управляющих) и унификация типов данных, проверка на целостность.
Под Агрегированием Данных понимается выборка данных из операционной БД и других источников в соответствии с метаданными. Эта задача не может быть полностью решена автоматически.
Слайд 25СТРУКТУРА СИСТЕМЫ КОРПОРАТИВНЫХ ЗНАНИЙ
Внешние
источники
Прикладные
системы
Накопленные
данные
Данные из
Inter/IntraNet
Опера-
ционные
базы
данных
Сбор,
очистка,
агрегиро-
вание
данных
Витрины
данных
Корпора-
тивное
хранилище
данных
Отчеты
СППР/
ИСР
системы
Средства
ИАД,
OLAP
М Е Т А Д А Н Н Ы Е
Исходные данные Преобразование Хранилища
данных
Слайд 26ОСНОВНЫЕ ОТЛИЧИЯ ХД ОТ БД
Концепция хранилищ данных связана с построением
стратегических СППР, и зачастую хранилища данных являются центральным элементом таких
СППР.
В хранилищах данных хранятся преимущественно агрегированные данные
При заполнении и модификации ХД используется массовая загрузка (ввод больших объемов данных централизованно через определенные промежутки времени)