Слайд 1Введение
Количественные методы исследований (SPSS)
DATA ANALYSIS
Слайд 2Структура лекции
Концептуальные основы: математическая статистика
Анализ данных
СППР
Методы анализа данных
Программные продукты
анализа данных
Информационное обеспечение курса
Слайд 3Концептуальные основы:
Главная задача любого исследования – отыскание связи явлений,
выраженной по возможности в количественной форме.
X
Y
X
Y
Функциональная связь
Статистическая связь
Слайд 4Вводная часть. Концептуальные основы: Общая теория статистики
Теория статистики фокусируется
на принятии решений при наличии случайных и непредсказуемых воздействий
Разделы статистики:
Общая теория статистики (ядро – математическая статистика)
Статистика по отраслям деятельности
Прикладная статистика (бизнес-статистика, анализ данных, DATA ANALYSIS)
Широкое внедрение методов анализа данных 60-80-е годы ХХ века
Слайд 5Анализ данных
Анализ ( из древнегреч.) – разделение или мысленное расчленение
объекта или явления на части или составляющие его элементы. Сами
явления даны в опыте, эксперименте или практической деятельности в качестве данных.
Данные (лат. DATA) – совокупность фактов, выраженных в формализованном (машиночитаемом) виде, обеспечивающем возможность их хранения, обработки или передачи.
Анализ данных – процедура обнаружения в имеющейся информации скрытых закономерностей и взаимосвязей.
Слайд 6Место анализа данных в познавательном процессе
Информация
Данные
(упорядоченная
формализованная
информация)
Анализ
(обработка)
данных
Знания
Анализ данных
дает достаточно надежные способы получения из отрывочной, фрагментарной, искаженной информации
адекватных знаний об окружающей действительности
Слайд 7Извлечение из множества разнообразных данных нетривиальных, обоснованных и практически значимых
выводов – анализ данных
Слайд 8Место анализа данных в процессе принятия решений
Сбор
информации
Анализ
информации
Разработка
вариантов
действий
(альтернатив)
Выбор
оптимальной
альтернативы
Слайд 9Задачи
систем поддержки принятия решений –СППР
(DSS, Decision Support System)
Ввод
данных
Хранение данных
Анализ данных
Выделяют 3 класса задач анализа:
Информационно-поисковый;
Оперативно-аналитический
Интеллектуальный
Слайд 10СППР
Подсистема ввода данных OLTP (Online transaction processing). Выполняется операционная (транзакционная)
обработка данных. Для реализации этих подсистем используют обычные системы управления
базами данных (СУБД).
Подсистема хранения. Для реализации данной системы используют современные СУБД и концепцию хранилищ данных.
Подсистема анализа.
Слайд 11Подсистема анализа. Может быть построена на основе:
Подсистемы информационно-поискового анализа на
базе реляционных СУБД и статистических запросов с использованием языка структурных
запросов SQL (Structured Query Language);
Подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP (On-line analytical processing). Используется концепция многомерного представления данных.
Подсистемы интеллектуального анализа. Реализует методы и алгоритмы Data Mining («добыча данных»).
Слайд 12Базы данных – основа СППР
Для решения задач анализа данных и
поиска решений необходимо накопление и хранение достаточно больших объемов данных.
Для этих целей используют базы данных (БД).
База данных – модель некоторой предметной области, состоящей из связанных между собой данных об объектах, их свойствах и характеристиках.
Средства для работы с БД представляют системы управления базами данных - СУБД.
СУБД – инструмент для разработки прикладных программ, использующих БД.
Слайд 13Хранилище данных
Для объединения в одной архитектуре СППР возможности систем оперативной
обработки транзакций (OLTP-систем) и систем анализа привело к концепции хранилищ
данных (ХД)
Хранилище данных – предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений [1992, У. Инмон «Построение хранилищ данных»].
Основная идея – разделение данных для оперативной обработки и для решения задач анализа.
Слайд 14OLAP - системы
Оперативный многомерный анализ корпоративных данных (On-Line Analytical Processing)
Слайд 15OLAP – системы
OLAP- технология оперативной аналитической обработки данных,
использующая методы и средства для сбора, хранения и анализа многомерных
данных в целях поддержки принятия решений [1993 г., Э.Кодд].
Предоставляет аналитику средства для проверки гипотез при анализе данных
Слайд 16Интеллектуальный анализ данных
DATA MANING – исследование и обнаружение «машиной» (алгоритмами,
средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее
не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.
В DATA MANING для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенные: правила, деревья решений, кластеры и математические функции.
Слайд 17DATA MANING
Задачи
Классификация
Регрессия
Поиск ассоциативных правил
Кластеризация
По назначению задачи делят на
описательные (descriptive)
предсказательные (predictive)
По способам решения:
Обучение с учителем (supervised learning)
Обучение
без учителя (unsupervised learning)
Слайд 18Базовые методы: статистические и
методы, основанные на переборе (эвристические методы
ограниченного перебора);
Нечеткая логика;
Генетические алгоритмы;
Нейронные сети;
Визуализация данных
Методы DATA MANING
Слайд 19Анализ данных – это прикладная научная дисциплина, представляющая собой систему
взаимосвязанных методов и технологий обработки исходной стохастической информации (полученной из
наблюдений, экспериментов, опросов, статистических отчетов, существующих баз данных, компьютерных систем управления различными сферами деятельности и т.п.) с целью выявления (подтверждения, уточнения) скрытых закономерностей определенной предметной области для принятия управленческих решений.
Резюме
Слайд 20Средства DATA MANING
www.kdnuggets.com
Классификация по типу реализации:
входящие как неотъемлемая
часть в системы управления базами данных;
Библиотеки алгоритмов DATA MANING с
сопутствующей инфраструктурой;
Коробочные или настольные решения («черные ящики»)
Слайд 21Рекомендации по изучению курса
1. Читать популярные (рассчитанные на прикладных
специалистов) книги по анализу данных. Например,
Наследов А. SPSS 19: профессиональный
статистический анализ данных. –Спб.: Питер, 2011. -400 с.
Урубков А.Р. Статистические методы и модели в бизнесе: учеб. Пособие.- М.: Издательский дом «Дело» РАНХиГС, 2011.-324 с.
2. Читать документацию статистических пакетов.
3. Практически применять в ходе изучения математической статистики и анализа данных статистические пакеты. Пользоваться их подсказками.
Слайд 22Структура курса
Три части:
1. Введение в анализ данных;
2. Методы обработки и анализа статистической информации и построения на
ее основе математических моделей наиболее часто используемых на практике;
3. Статистическая обработка данных на компьютере в пакете SPSS и MS Excel.
Слайд 23Рассматриваемые методы и приемы позволят Вам ответить на следующие вопросы:
Как
извлечь полезную информацию из имеющегося статистического материала – статистических данных,
накопленных по результатам собственной предшествующей деятельности или деятельности аналогичных объектов?
Как выявить основные закономерности и особенности, присущие исследуемому объекту, рынку, бизнесу, исходя из накопленной статистики?
Как выявить факторы, влияющие на исследуемые экономические показатели, и количественно оценить это влияние?
Как построить модели, связывающие между собой исследуемые характеристики и влияющие на них факторы?
Как оценить точность и достоверность моделей и получаемых на их основе выводов и заключений?