Слайд 1Хранилища данных
Информационные технологии в экономике, лекция 09
Слайд 2Определение
{Уильям Инмон, 1991}. Хранилище данных (Data Warehouse, ХД): предметно-ориентированная информационная
база данных, специально разработанная и предназначенная для подготовки отчётов и
бизнес-анализа с целью поддержки принятия решений в организации.
Слайд 3Принципы организации хд
Проблемно-предметная ориентация. Данные объединяются в категории и хранятся
в соответствии с областями, которые они описывают, а не с
приложениями, которые они используют.
Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
Слайд 4Принципы организации хд
Некорректируемость. Данные в хранилище данных не создаются: т.е.
поступают из внешних источников, не корректируются и не удаляются.
Зависимость от
времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.
Слайд 5Примеры использования хд
Финансовые ХД
Финансовые данные всегда находятся в центре внимания
руководства организации. Поэтому привлечь интерес к созданию такой информационной системы
данных очень легко.
Финансы охватывают все аспекты функционирования организации и имеют один общий знаменатель — деньги.
Финансовые данные по своей природе имеют структуру, на которую напрямую влияет повседневная практика обработки финансовой информации.
Слайд 6Примеры использования хд
Финансовые ХД
Финансовая активность большинства организаций (за исключением финансово-кредитных
учреждений) невелика, поэтому объемы финансовых данных не очень большие, скорость
поступления данных также невелика. Финансовые данные хорошо структурированы. Поэтому имеющиеся программно-аппаратные средства позволяют создать и поддерживать компактные финансовые ХД.
Слайд 7Примеры использования хд
Финансовые ХД: трансформация данных
Меняются отчетные периоды. В операционной
среде отчетный период завершается в конце месяца, а в ХД
отчетный период заканчивается на корпоративном календаре, например, 15-го числа месяца.
Меняются валюты. Операционные денежные средства соответствуют той валюте, в которой они обращаются: рубли, доллары, евро, фунты и так далее. В глобальной среде деньги преобразуются к одной общей валюте.
Слайд 8Примеры использования хд
Финансовые ХД: трансформация данных
Меняются схемы группировки и кодирования
счетов. В операционной среде данные рассчитываются в соответствии с планом
бухгалтерских счетов, а в финансовой среде всей организации может быть совершенно другой набор схемы группировки и кодирования.
Меняются классификации данных.
Слайд 9Примеры использования хд
ХД в области страхования
Продолжительность существования имеющихся ХД очень
велика (вековые данные).
Среда страхования отличается наличием огромного числа дат, связанных
с бизнесом, большим, чем в каком-либо другом виде деятельности.
ХД используют свой рабочий цикл деловой активности (пример: заявка на страховое возмещение, которая может быть удовлетворена спустя пять лет).
Слайд 10Примеры использования хд
ХД управления персоналом
Одна предметная область – работник.
Используется очень
мало транзакций (прием на работу, увольнение, поощрение, взыскание, перевод на
иную работу).
Слайд 11Примеры использования хд
Глобальные ХД
Предназначены для глобального представления деятельности организации.
Три типа
ХД:
Географически превалирующая обработка данных.
Функционально превалирующая обработка данных.
Отраслевая превалирующая обработка
данных.
На глобальном уровне зачастую очень мало общих измерений.
Глобальное ХД должно непрерывно реагировать на возможные изменения в бизнес-данных.
Слайд 12Примеры использования хд
ХД в области телекоммуникаций
Предметная область – телефонные разговоры.
Детализация
данных:
хранение деталей на уровне разговора только за несколько месяцев;
хранение множества
деталей на уровне разговора, размещенных на различных носителях;
резюмирование или агрегирование деталей на уровне разговора;
хранение только отобранных деталей на уровне разговора, и так далее.
Слайд 13Отличия
Отличия использования данных в базах данных и хранилищах данных:
Слайд 14Архитектуры хд
корпоративная информационная фабрика (Corporate Information Factory, сокр. CIF) Билла
Инмона
Слайд 15Архитектура Б. Инмона
Использование реляционной модели организации атомарных данных и пространственной
- для организации суммарных данных.
Использование итеративного или "спирального" подхода при
создании больших Хранилищ данных, т.е. "строительство" Хранилища не сразу, а по частям. Это позволяет при необходимости вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных в Хранилище. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все Хранилище.
Слайд 16Архитектура Б. Инмона
Использование третьей нормальной формы для организации атомарных данных,
что обеспечивает высокую степень детальности интегрированных данных и, соответственно, предоставляет
корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости.
Хранилище данных - это проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.
Хранилище данных - это не механическая коллекция витрин данных, а физически целостный объект.
Слайд 17Архитектуры хд
хранилище данных с архитектурой шины (Data Warehouse Bus, сокр.
BUS) Ральфа Кимболла (Ralph Kimball)
Слайд 18Архитектура Р. Кимболла
Использование пространственной модели организации данных с архитектурой "звезда"
(star scheme).
Использование двухуровневой архитектуры, которая включает стадию подготовки данных,
недоступную для конечных пользователей, и Хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных, но оно не содержит одного физически целостного или централизованного Хранилища данных.
Слайд 19Архитектура Р. Кимболла
Хранилище данных с архитектурой шины обладает следующими характеристиками:
оно пространственное;
оно включает как данные о транзакциях, так и суммарные
данные;
оно включает витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (fact table);
оно может содержать множество витрин данных в пределах одной базы данных.
Хранилище данных не является единым физическим репозиторием (в отличие от подхода Билла Инмона). Это "виртуальное" Хранилище. Это коллекция витрин данных, каждая из которых имеет архитектуру типа "звезда".
Слайд 20хд-решения: IBM
Решение компании IBM называется Data Warehouse Plus. Целью компании
в области разработки и поддержки систем складирования данных является обеспечение
пользователя интегрированным набором программных продуктов и сервисов в рамках единой архитектуры.
IBM предлагает встроенную поддержку трех типов архитектурных решений для ХД:
независимый киоск данных ;
взаимосвязанные киоски данных ;
глобальное ХД.
Слайд 21хд-решения: IBM
Несущая СУБД для ХД — семейство объектно-реляционных СУБД DB2.
Язык манипулирования данными — SQL.
Преимущество решений IBM проявляется, когда и
системы оперативной обработки данных, и ХД находятся на программном обеспечении IBM, т.е. предлагается так называемое замкнутое типовое решение.
Слайд 22хд-решения: ORACLE
Решения, предлагаемые компанией, преследуют две основные цели: предоставление пользователям
широкого ассортимента программных продуктов самой компании и деятельность партнеров в
рамках программы Warehouse Technology Initiative.
Компания Oracle не предлагает поддержку каких-либо встроенных архитектурных решений для ХД.
Несущая СУБД для ХД — семейство объектно-реляционных СУБД Oracle 11g/10g. Язык манипулирования данными — SQL. Начиная с версии 8i, диалект SQL существенно дополнен набором функций для аналитической обработки данных, вплоть до построения линейной регрессии.
Слайд 23хд-решения: ORACLE
Компания выпускает специальный CASE-инструментарий для проектирования ХД.
Конкурентные возможности Oracle
определяются следующими факторами:
имеется набор готовых приложений для разработки ХД, обеспечивающий
полный жизненный цикл;
компания является одним из лидеров по продажам в области анализа данных;
совместимость с продуктами, производимыми другими компаниями.
Слайд 24хд-решения: NCR
Решение этой компании в области складирования данных ориентировано на
организации, у которых имеются потребности в системах DSS (система поддержки
и принятия решений) и системах OLAP. Предлагаемая архитектура – Enterprise Information Factory
Несущая СУБД для ХД — реляционная СУБД Teradata.
Конкурентным преимуществом решений компании является большой опыт применения СУБД Teradata и связанных с ней методов параллельной обработки данных.
Слайд 25хд-решения: SAS institute
Компания считает себя поставщиком полного решения для организации
ХД. Компания предлагает методологию Rapid Data Warehousing для быстрого создания
и наполнения ХД. В основу этой методологии положено:
обеспечение доступа к данным в ХД с возможностью их извлечения из разнообразных источников данных (интероперабельность);
преобразование и манипулирование данными в рамках 4GL (Data Step);
наличие у компании сервера многомерных БД;
большой набор программных продуктов компании для аналитической обработки данных и статистического анализа.
Конкурентным преимуществом компании является наличие у нее длинной линейки программных продуктов для статистического и сравнительного анализа данных, который интегрирован в ее методологию построения и использования ХД.
Слайд 26хд-решения: sybase
Стратегия компании в области ХД основывается на разработанной архитектуре
Warehouse WORKS.
Несущая СУБД для ХД — реляционная СУБД Sybase System
11, средство подключения к базам данных OmniCONNECT. Язык манипулирования данными — SQL и средства быстрой разработки приложений.
Компания выпускает специальный CASE-инструментарий для проектирования ХД.
Конкурентным преимуществом компании является наличие набора программных продуктов для обеспечения полного жизненного цикла разработки ХД.
Слайд 27хд-решения: microsoft
Корпорация предлагает спецификации среды Microsoft Data Warehousing Framework для
создания и использования ХД. Открытость среды Microsoft Data Warehousing Framework
обеспечила ее поддержку многими производителями программного обеспечения.
Цель Microsoft Data Warehousing Framework состоит в том, чтобы упростить разработку, внедрение и администрирование решений на основе ХД. Эта спецификация призвана обеспечить:
открытую архитектуру, которая интегрируется и расширяется третьими фирмами;
экспорт и импорт гетерогенных данных наряду с их проверкой, очисткой и ведением истории накопления;
доступ к разделяемым метаданным со стороны процессов разработки ХД.
Слайд 28хд-решения: microsoft
Несущая СУБД для ХД — реляционная СУБД MS SQL
Server 2005/2008. Язык манипулирования данными — SQL со встроенными средствами
обработки многомерных кубов.
Конкурентным преимуществом компании является наличие у нее набора программных продуктов для обеспечения разработки и поддержки ХД, в том числе для очистки данных, при невысокой цене на эти продукты. Ориентация продукции компании на средний и малый бизнес позволяет ей увеличить свои конкурентные преимущества.