Слайд 1Современные компьютерные технологии сбора, хранения, обработки, анализа и передачи информации
для решения профессиональных задач
«Информационные технологии в науке и производстве», тема
3
Д.т.н., доц. Ханова А.А.
Слайд 2Анализ данных
исследования, связанные с обсчетом многомерной системы данных, имеющей множество
параметров
анализ данных тесно связан с моделированием
Слайд 4Подходы к моделированию
Аналитический
При аналитическом подходе мы пытаемся подобрать существующую аналитическую
модель таким образом, чтобы она адекватно отражала реальность
Информационный
при информационном подходе
отправной точкой являются данные, характеризующие исследуемый объект, и модель «подстраивается» под действительность.
Слайд 6Процесс анализа
Эксперт — специалист в предметной области, профессионал, который за
годы обучения и практической деятельности научился эффективно решать задачи, относящиеся
к конкретной предметной области
Гипотеза - предположение о влиянии какого-либо фактора или группы факторов на результат.
Аналитик — специалист в области анализа и моделирования:
владеет инструментальными и программными средствами анализа данных,
систематизирует данные, проводит опрос мнений экспертов,
координирует действий всех участников проекта по анализу данных.
Слайд 8Извлечение и визуализация данных
Способы визуализации:
многомерные кубы;
таблицы;
диаграммы, гистограммы;
карты, проекции, срезы и
т.п.
+ простота
- люди не могут обнаруживать сложные и нетривиальные зависимости,
невозможно отделить знания от эксперта и тиражировать знания
Слайд 10Формы представления данных
Данные – сведения, характеризующие систему, явление, процесс или
объект, представленные в определенной форме и предназначенные для дальнейшего использования
По
степени структурированности:
Неструктурированные данные - произвольные по форме,
включают тексты и графику,
мультимедиа (видео, речь, аудио).
Структурированные данные отражают
отдельные факты предметной области.
Это основная форма представления сведений
в базах данных.
Слабоструктурированные данные — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п.
Слайд 11Типы структурированных данных
целый (количество товара, код товара и т. п.);
вещественный
(цена, скидка и т. п.);
строковый (фамилия, наименование, адрес, пол, образование
и т.п.);
логический;
дата/время.
Виды структурированных данных
Непрерывные данные — данные, значения которых могут принимать какое угодно значение в некотором интервале. Над непрерывными данными можно производить арифметические операции сложения, вычитания, умножения, деления, и они имеют смысл.
Дискретные данные — значения признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. С дискретными данными не могут быть произведены никакие арифметические действия, либо они не имеют смысла.
Соответствие между типами и видами данных
Слайд 12Представления наборов данных
Упорядоченный набор данных - каждому столбцу соответствует один
фактор, а в каждую строку заносятся упорядоченные по какому-либо признаку
(например, время) события с интервалом периода между строками.
Неупорядоченный набор - каждому столбцу соответствует фактор, а в каждую строку заносится пример (ситуация, прецедент), упорядоченность строк не требуется.
Транзакционные данные - любые связанные объекты или действия.
Слайд 13Подготовка данных к анализу
Особенности данных, накопленных в организациях
Данные редко накапливаются
специально для решения задач анализа.
Данные, как правило, содержат ошибки,
аномалии, противоречия и пропуски.
С точки зрения анализа объемы хранимых данных очень велики.
Принципы формализации данных
Абстрагироваться от существующих ИС и имеющихся в наличии данных.
Описать все факторы, потенциально влияющие на анализируемый процесс/объект.
Экспертно оценить значимость каждого фактора.
Определить способ представления информации — число, дата, да/нет, категория (то есть тип данных).
Собрать все легкодоступные факторы.
Обязательно собрать наиболее значимые, с точки зрения экспертов, факторы.
Оценить сложность и стоимость сбора средних и наименее важных по значимости факторов.
Слайд 14При создании таблицы 1 следуют принципам 1–3 формализации данных.
Решение задачи
прогнозирования
спроса
Далее необходимо определить способ представления данных и оценить стоимость их
сбора. К
таблице добавятся еще два столбца (таблица 2). И уже после этого можно принимать решение
о том, какие факторы включать в анализ, а какими пренебречь. Очевидно, что все
легкодоступные показатели с высокой экспертной значимостью требуется включать в рассмотрение. А фактором Качество продукции, например, можно пренебречь: по мнению экспертов, он малозначим, а стоимость его сбора велика
Таблица 1
Таблица 2
Слайд 15Методы сбора данных
Получение из учетных систем.
Получение данных из косвенных источников
информации.
Использование открытых источников (статистические сборники, отчеты корпораций, опубликованные результаты
маркетинговых исследований и пр.).
Приобретение аналитических отчетов у специализированных компаний
Проведение собственных маркетинговых исследований и аналогичных мероприятий по сбору данных.
Ввод данных вручную.
соизмерение затрат с результатами
представление в структурированном виде (MS Excel, DBase, текстовые файлы с разделителями или в набор таблиц в любой реляционной СУБД )
унифицированное представление данных
Слайд 16Информативность данных
неинформативные признаки:
признаки, содержащие только одно значение (а);
признаки, содержащие в
основном одно значение (б);
признаки с уникальными значениями (в);
признаки, между которыми
имеет место сильная корреляция, — в этом случае для анализа можно взять один столбец (г).
Слайд 17Требования к данным
Для временных рядов, которые относятся к упорядоченным данным.
Если
для моделируемого бизнес-процесса (например, продажи) характерна сезонность/цикличность, то необходимо иметь
данные хотя бы за один полный сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное и т. д.).
Максимальный горизонт прогнозирования зависит от объема данных:
данные за 1,5 года — прогноз возможен максимум на 1 месяц;
данные за 2–3 года — на 2 месяца.
Для неупорядоченных данных :
Количество примеров (прецедентов) должно быть значительно больше количества факторов.
Желательно, чтобы данные покрывали как можно больше ситуаций реального процесса.
Пропорции различных примеров (прецедентов) должны примерно соответствовать реальному процессу.
Для Транзакционных данных.
Анализ транзакций целесообразно производить на большом объеме данных, иначе могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы данных.
300–500 объектов — не менее 10 тыс. транзакций;
500–1000 объектов — более 300 тыс. транзакций.
Слайд 18Методика извлечения знаний
Knowledge Discovery in Databases — процесс получения из
данных знаний в виде зависимостей, правил, моделей, обычно состоящий из
таких этапов, как выборка данных, их очистка и трансформация, моделирование и интерпретация полученных результатов.
Слайд 19Data Mining
обнаружение в «сырых» данных ранее неизвестных, нетривиальных, практически полезных
и доступных интерпретации знаний, необходимых для принятия решений в различных
сферах человеческой деятельности.
Кассы задач:
Классификация – установление зависимости дискретной выходной переменной от входных переменных.
Регрессия – установление зависимости непрерывной выходной переменной от входных переменных.
Кластеризация – группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.
Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными.
Анализ отклонений (deviation detection).
Связей (link analysis).
Отбор значимых признаков (feature selection).
Слайд 20Отнесение нового товара к той или иной товарной группе, клиента
к какой-либо категории
При кредитовании – по каким-то признакам к
одной из групп риска
Зависимость между суммой продаж, и факторами, влияющими на нее, (предыдущие объемы продаж, изменение курсов валют, активность конкурентов)
При кредитовании физических лиц вероятность возврата кредита зависит от личных характеристик человека, сферы его деятельности, наличия имущества
При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально, поэтому их удобно объединять в группы — сегменты с однородными признаками. Например по сфере деятельности, по географическому расположению. После кластеризации можно узнать, какие сегменты наиболее активны, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается благодаря учету их персональных предпочтений.
Слайд 22Машинное обучение
Машинное обучение (machine learning) — обширный подраздел искусственного интеллекта,
изучающий методы построения алгоритмов, способных обучаться на данных.
Имеется множество объектов
(ситуаций) и множество возможных ответов (откликов, реакций).
Между ответами и объектами существует некоторая зависимость, но она неизвестна. Известна только конечная совокупность прецедентов — пар вида «объект — ответ», — называемая обучающей выборкой.
На основе этих данных требуется обнаружить зависимость, то есть построить модель, способную для любого объекта выдать достаточно точный ответ. Чтобы измерить точность ответов, вводится критерий качества.
Слайд 23Причины распространения KDD и Data Mining
Развитие технологий автоматизированной обработки информации
создало основу для учета сколь угодно большого количества факторов и
достаточного объема данных.
Возникла острая нехватка высококвалифицированных специалистов в области статистики и анализа данных. Поэтому потребовались технологии обработки и анализа, доступные для специалистов любого профиля за счет применения методов визуализации и самообучающихся алгоритмов.
Возникла объективная потребность в тиражировании знаний. Полученные в процессе KDD и Data Mining результаты являются формализованным описанием некоего процесса, а следовательно, поддаются автоматической обработке и повторному использованию на новых данных.
На рынке появились программные продукты, поддерживающие технологии KDD и Data Mining, – аналитические платформы. С их помощью можно создавать полноценные аналитические решения и быстро получать первые результаты.
Слайд 25Программное обеспечение в области анализа данных
Слайд 26Статистические пакеты с возможностями Data Mining и настольные Data Mining
пакеты
слабая интеграция с промышленными источниками данных;
бедные средства очистки, предобработки и
трансформации данных;
отсутствие гибких возможностей консолидации информации, например, в специализированном хранилище данных;
конвейерная (поточная) обработка новых данных затруднительна или реализуется встроенными языками программирования и требует высокой квалификации;
из-за использования пакетов на локальных рабочих станциях обработка больших объемов данных затруднена.
Слайд 27СУБД с элементами Data Mining:
высокая производительность;
алгоритмы анализа данных по максимуму
используют преимущества СУБД;
жесткая привязка всех технологий анализа к одной СУБД;
сложность
в создании прикладных решений, поскольку работа с СУБД ориентирована на программистов и администраторов баз данных.
Аналитическая платформа –
Специализированное программное решение (или набор решений), которое содержит в себе все инструменты для извлечения закономерностей из «сырых» данных:
средства консолидации информации в едином источнике (хранилище данных),
извлечения, преобразования,
трансформации данных,
алгоритмы Data Mining,
средства визуализации и распространения результатов среди пользователей,
возможности конвейерной» обработки новых данных.
Слайд 28Типовая схема системы на базе аналитической платформы
Слайд 29Языки визуального моделирования
!важно освободить аналитика от необходимости углубленного понимания сложных
математических алгоритмов.
Формы представления диаграмм:
в виде дерева
и в виде графа
Слайд 30Общие особенности языков моделирования в аналитических платформах
Базовым узлом, с которого
начинается диаграмма, является узел импорта, поскольку в аналитических платформах обычно
отсутствуют средства для ручного ввода данных; предполагается, что данные уже имеются в каких-либо источниках.
Графическое изображение, соответствующее какому-либо узлу, несет в себе большой семантический смысл. Оно помогает аналитику различать узлы по функциям и определять их активность (часто еще не выполненный узел обозначается иконкой серого цвета, а выполненный — цветной).
Диаграмма описывает формализованную последовательность действий над данными, и эти действия можно повторить на совершенно других данных, предварительно настроив соответствие колонок.