Разделы презентаций


Аналитика без стресса

Содержание

Всем привет!Мансур Кадимов, управляющий партнер Reshape AnalyticsБольше 11 лет опыта в аналитике:Цепи поставокМаркетингКоммерцияУправление проектамиВ ходе лекции мы примерим несколько шляп:Шляпа менеджера по аналитике (CDO)Шляпа дата-сайентиста (Data Scientist)Шляпа человека, делающего первые шаги

Слайды и текст этой презентации

Слайд 1Аналитика без стресса

Аналитика без стресса

Слайд 2Всем привет!
Мансур Кадимов, управляющий партнер Reshape Analytics
Больше 11 лет опыта

в аналитике:
Цепи поставок
Маркетинг
Коммерция
Управление проектами
В ходе лекции мы примерим несколько шляп:
Шляпа

менеджера по аналитике (CDO)
Шляпа дата-сайентиста (Data Scientist)
Шляпа человека, делающего первые шаги в аналитике
Всем привет!Мансур Кадимов, управляющий партнер Reshape AnalyticsБольше 11 лет опыта в аналитике:Цепи поставокМаркетингКоммерцияУправление проектамиВ ходе лекции мы

Слайд 3Чтоб понять, какие инструменты к каким аналитическим задачам применимы, нужно

сначала ответить на вопрос:
− Какие задачи
решает аналитика?
− Задачи управления

Чтоб понять, какие инструменты к каким аналитическим задачам применимы, нужно сначала ответить на вопрос:− Какие задачи 	решает

Слайд 4Знакомая
аббревиатура?
PDCA
Алгоритм управления и достижения целей
Все ли тут очевидно?

Знакомая аббревиатура?PDCAАлгоритм управления и достижения целейВсе ли тут очевидно?

Слайд 5Ёмкие слова оставляют пространство для интерпретаций
Установка целей, планирование работ и

распределения ресурсов
Выполнение запланированного

Сбор информации, сопоставление результатов с целями, анализ отклонений
Устранение

причин отклонений, изменение порядка планирования ресурсов

Реализация в малом масштабе, достаточном для получения информации

Анализ результатов опыта, извлечение знаний

Решение о применении и тиражировании результатов, или повторении цикла

Каскадный метод

Итерационный метод

Ёмкие слова оставляют пространство для интерпретацийУстановка целей, планирование работ и распределения ресурсовВыполнение запланированногоСбор информации, сопоставление результатов

Слайд 6При каком управленческом методе проще делать аналитику?
Каскадный метод
Длинные циклы
Одновременно редко

больше одного
Времени на обработку больше
Стоимость ошибки выше
Итерационный метод
Короткие циклы
Может быть

одновременно несколько циклов
Времени на обработку меньше
Стоимость ошибки ниже

Когда аналитик испытывает меньший стресс?

Значимой разницы нет. Почему?!

При каком управленческом методе проще делать аналитику?Каскадный методДлинные циклыОдновременно редко больше одногоВремени на обработку большеСтоимость ошибки вышеИтерационный

Слайд 7Каждый метод управления несет свои сложности для аналитики
Каскадный метод
Цели на

дальний горизонт формулируются сложнее и согласуются дольше, за это время

могут потерять актуальность ключевые предпосылки в их основе
Собираемые метрики могут устареть в ходе выполнения, а остановить процесс, чтоб их дополнить нет возможности
Даже при достаточном объеме времени на анализ можно столкнуться с дефицитом качественных и объясняющих ход выполнения данных

Итерационный метод

Содержание последовательных, или одновременно идущих итераций может быть совершенно разным
Результаты, полученные на малом масштабе, должны быть репрезентативны
За короткий срок на ограниченном количестве данных нужно принимать множество решений



Аналитика должна фокусироваться на бизнес-целях и повышать вероятность их достижения

Каждый метод управления несет свои сложности для аналитикиКаскадный методЦели на дальний горизонт формулируются сложнее и согласуются дольше,

Слайд 8Понимание бизнеса, которое нужно до старта аналитических работ
Цели и причины

анализа
Целевая аудитория, сценарий использования результатов и реальная готовность к

этому
Наличие ранее проведенного анализа и обратная связь по нему
Существующие гипотезы и критерии успеха
Доступные людские ресурсы: навыки, опыт и загруженность
Доступные технические ресурсы: интеграция, хранение и калькуляция
Срок выполнения работ
Требований и ограничения, например, связанные с персональными данными

Понимание бизнеса, которое нужно до старта аналитических работЦели и причины анализа Целевая аудитория, сценарий использования результатов и

Слайд 9Концепция, о которой нельзя забывать
Аналитические технологии могут быть очень мощными,

результаты вдохновляющими, но без комплексного развития, включающего людей (аналитическую культуру,

компетенции) и процессы (гибкость, зрелость), могут оказаться невостребованными.
Концепция, о которой нельзя забыватьАналитические технологии могут быть очень мощными, результаты вдохновляющими, но без комплексного развития, включающего

Слайд 10Четыре аналитических подхода

Четыре аналитических подхода

Слайд 11Описательная аналитика
Отвечает на вопрос: что происходит сейчас или было в

прошлом (сколько, когда, где)?
Кейсы: охват публикаций, динамика посещений ресурса, дочитывания,

% отклика
Способы: консолидация, трансформация, агрегация и визуализация данных
Формы: регулярная отчетность, дашбоарды, запросы на выгрузку данных из систем.


Описательная аналитикаОтвечает на вопрос: что происходит сейчас или было в прошлом (сколько, когда, где)?Кейсы: охват публикаций, динамика

Слайд 12Диагностическая аналитика
Отвечает на вопрос: что это, почему это происходит, на

что обратить внимание?
Кейсы: сравнение отклика, глубокий анализ аудитории, таргетинг, сегментаций

аудитории, анализ сентиментов
Способы: обогащение данных, кластеризация, когортный анализ, выявление корреляций, анализ значимости признаков, анализ отклонений, распознавание изображений и извлечение информации из текстов и т.д.
Формы: интерактивная отчетность, причинно-следственный анализ


Диагностическая аналитикаОтвечает на вопрос: что это, почему это происходит, на что обратить внимание?Кейсы: сравнение отклика, глубокий анализ

Слайд 13Предиктивная аналитика
Отвечает на вопрос: есть ли паттерн? что может произойти

в будущем?
Кейсы: прогнозирование объема продаж, вероятности открытия страницы и покупки
Способы:

построение прогнозных моделей (регрессии, нейросети), кластеризация
Формы: часто встраивается в системы рекомендаций, управления ставками, скоринга


Предиктивная аналитикаОтвечает на вопрос: есть ли паттерн? что может произойти в будущем?Кейсы: прогнозирование объема продаж, вероятности открытия

Слайд 14Предписывающая аналитика
Отвечает на вопросы: что-если? как лучше всего поступить?
Кейсы: разработка

стратегий, оптимизация портфеля, поиск оптимального размещения
Способы: комплексные имитационные модели,

многократные вычислительные эксперименты, оптимизационные механики
Формы: модели с заданной логикой(событий, агентской или системно-динамической) и целевые много-подходные эксперименты


Предписывающая аналитикаОтвечает на вопросы: что-если? как лучше всего поступить?Кейсы: разработка стратегий, оптимизация портфеля, поиск оптимального размещения Способы:

Слайд 15Сетевые базы данных
MS SQL, Teradata, Greenplum, MySQL, SAP HANA
Облачные БД
Google,

Amazon
Мониторинг и анализ соц.сетей
YouScan, BrandAnalytics
Старый добрый Excel 
Решения для

визуализации
Tableau, QlikSense, SAP Lumira, MS Power BI (+free)

Языки программирования для машинного обучения (free)
Python, R

Корпоративные платформы для анализа данных
MS SQL Analysis Services, Microstrategy, IBM SPSS, Pentaho(free)

Self-service аналитические решения (машинное обучение без программирования)
Loginom (+free), RapidMiner (+free), Orange (free),
Alteryx и Lobe (beta)

Распознавание речи
Yandex.SpeechKit, Alexa

Распознавание фото (free)
на Python TensorFlow, Keras

Извлечение информации из текстов Abbyy Compreno

Системы для управления мастер-данными

Системы для имитационного моделирования и нелинейной оптимизации
AnyLogic (+free), IBM ILOG

Локальные решения

Специализированные решения

Корпоративные решения

Сбор, обработка и хранение данных

Визуализация данных

Диагностическая аналитика

Предиктивная аналитика

Предписывающая аналитика

Корпоративные информационные системы (ERP, CRM, POS)
SAP, 1C

Специализированные комплексные оптимизационные решения
Albert.AI, HR-робот Вера

Инструменты веб-аналитики (free)
Google Analytics, Яндекс.Метрика

Карта аналитических решений

Сетевые базы данныхMS SQL, Teradata, Greenplum, MySQL, SAP HANAОблачные БДGoogle, Amazon Мониторинг и анализ соц.сетейYouScan, BrandAnalyticsСтарый добрый

Слайд 16Машинное обучение – это класс интеллектуальных алгоритмов (моделей), способных самообучаться

на основе обобщения прецедентов и не содержащих в себе прямого

решения специфичных задач.

Метод машинного обучения встречается в диагностической, прогнозной и предписывающей аналитике.

Машинное обучение – это класс интеллектуальных алгоритмов (моделей), способных самообучаться на основе обобщения прецедентов и не содержащих

Слайд 17Обучение с учителем
Машинное обучение на основании известных пар правильных ответов

и «ситуаций» (предпосылок) с предсказанием ответов для новых пар.
Оба

метода также используются для решения задач прогнозирования будущего и ранжирования.
Обучение с учителемМашинное обучение на основании известных пар правильных ответов и «ситуаций» (предпосылок) с предсказанием ответов для

Слайд 18Обучение без учителя
Доступны только «ситуации», правильных ответов – нет, необходимо

описать и дополнить «ситуации» новыми знаниями.
А еще это фильтрация выбросов,

заполнение пропущенных значений и обобщение за счет уменьшения количества признаков «ситуации»
Обучение без учителяДоступны только «ситуации», правильных ответов – нет, необходимо описать и дополнить «ситуации» новыми знаниями.А еще

Слайд 19А учитель кто? Не совсем анализ данных 

А учитель кто? Не совсем анализ данных 

Слайд 20У машинного обучения очень много разных применений
И даже генерация программного

кода на основе изображений!!

У машинного обучения очень много разных примененийИ даже генерация программного кода на основе изображений!!

Слайд 21На что нужно обращать внимание, используя машинное обучение
Некоторые методы функционируют

как «черный ящик», правила которого неформализованны и непрозрачны, в то

время как малейшее изменение входных параметров может неожиданно сильно повлиять на результат
Требуется большое количество качественных и размеченных данных: до 95% времени уходит на их подготовку
Возможна предвзятость модели из-за некорректно составленной исходной выборки, что требует отдельной проверки
Случается переобучение модели, когда из-за избыточной сложности она теряет предсказательный потенциал
Возможны ложные срабатывания или пропуски событий – метрики качества должны это учитывать
Требуется постоянный мониторинг качества результатов и данных, подаваемых на вход (возможно, что угодно, в т.ч. троллинг)



На что нужно обращать внимание, используя машинное обучениеНекоторые методы функционируют как «черный ящик», правила которого неформализованны и

Слайд 22Аналитический процесс

Аналитический процесс

Слайд 23Корреляционный анализ – метод исследования данных
Используется с целью обнаружение неизвестных

связей между явлениями и измерения ее степени

Оцениваются количественные или порядковые

признаки явлений



Положительная корреляция

Отрицательная

Нулевая

Корреляционный анализ – метод исследования данныхИспользуется с целью обнаружение неизвестных связей между явлениями и измерения ее степениОцениваются

Слайд 24Считаем корреляцию
5. Для последовательных во времени наблюдений можно посчитать автокорреляцию

как зависимость исторических значений от одного-нескольких предыдущих

Считаем корреляцию5. Для последовательных во времени наблюдений можно посчитать автокорреляцию как зависимость исторических значений от одного-нескольких предыдущих

Слайд 25Пользуйтесь, но со знанием дела:

Возможна ложная корреляция: корреляция ничего не

говорит причинно-следственных связях!

Пользуйтесь, но со знанием дела:Возможна ложная корреляция: корреляция ничего не говорит причинно-следственных связях!

Слайд 26Обучение с учителем. Регрессия как инструмент моделирования
Чаще всего используется для

прогнозирования числовых переменных (линейная регрессия), или для классификации (логистическая)

Основана на

том, что зависимая (выходная) переменная имеет выраженную параметрическую связь с независимыми


Обучение с учителем. Регрессия как инструмент моделированияЧаще всего используется для прогнозирования числовых переменных (линейная регрессия), или для

Слайд 27Исходная выборка
Начинайте с одного независимого параметра (простой регрессии)
Меньше независимых

параметров в множественной регрессии – больше скорость
Независимые параметры не должны

между собой коррелировать
Наличие автокорреляции параметров может существенно повлиять на результат, поэтому включите в план соответствующую регрессию
Желательно, чтоб в независимых параметрах была вариативность
Необходимо предварительно исключить выбросы
Границы прогнозного потенциала регрессии формируются исходными данными, экстраполяция за их пределы может быть нерелевантной

Тестовая выборка
От 20% до 30% значений в зависимости от объема исходной выборки
Отбор значений:
Случайный
Последовательный
Репрезентативный


Показатели качества по итогам построения регрессии
Проверьте значения зависимой переменной на допустимость
Посчитайте ошибки (остатки) для каждого рассчитанного значения,
Постройте график ошибок, предварительно их упорядочив, график должен иметь вид нормального распределения
Рассчитайте сводную ошибку для разных типов регрессий и набора независимых параметров, например, среднеквадратическую
Отберите регрессию (формулу) с минимальной сводной ошибкой и проверьте ее на тестовой выборке

Исходная выборкаНачинайте с одного независимого параметра (простой регрессии) Меньше независимых параметров в множественной регрессии – больше скоростьНезависимые

Слайд 28Построили и смотрим:
P-значение меньше 0.05, значит результат статистически значим для

конфигурации исходной выборки
R-квадрат – коэффициент детерминации. В нашем примере –

0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5
Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.
Коэффициент -0,16285 показывает весомость переменной Х на Y. Знак «-» указывает на отрицательное влияние.

Зависимая
Независимые

Построили и смотрим:P-значение меньше 0.05, значит результат статистически значим для конфигурации исходной выборкиR-квадрат – коэффициент детерминации. В

Слайд 29Рекомендации
Машинное обучение простыми словами http://vas3k.ru/blog/machine_learning/
Марафон по Tableau http://tableau.pro/m01, http://tableau.pro/m02 и

т.д.
Блог «Путь война. Менеджерами не рождаются. Менеджерами становятся», рубрика Статистика

http://baguzin.ru/wp/category/8stat/
Подборки ссылок на курсы https://github.com/demidovakatya/vvedenie-mashinnoe-obuchenie или https://habr.com/company/spbifmo/blog/417641/
Подборки книг https://proglib.io/p/data-science-books/ или https://www.mann-ivanov-ferber.ru/tag/analytics-books/

РекомендацииМашинное обучение простыми словами http://vas3k.ru/blog/machine_learning/Марафон по Tableau http://tableau.pro/m01, http://tableau.pro/m02 и т.д.Блог «Путь война. Менеджерами не рождаются. Менеджерами

Слайд 30К семинару
Скачайте Loginom Academic https://loginom.ru/downloads
Откройте справку и изучите как минимум

Быстрый старт
Скачайте датасет https://www.kaggle.com/c/demand-forecasting-kernels-only/data#_=_
Загрузите датасет в Loginom
Для узла «Текстовый файл»

создайте визуализатор Статистика, изучите характеристики выборки
С помощью визуализатора Куб сначала найдите store с максимальным объемом sales, а затем для него найдите item с максимальным sale
Отберите с помощью Фильтра строки, у которых соответствующие store и item
Для узла «Фильтр строк» постройте диаграмму типа «Разброс» для значений sale
Как вы думаете, какие точки на графике являются выбросами?
К семинаруСкачайте Loginom Academic https://loginom.ru/downloadsОткройте справку и изучите как минимум Быстрый стартСкачайте датасет https://www.kaggle.com/c/demand-forecasting-kernels-only/data#_=_Загрузите датасет в LoginomДля

Слайд 31Спасибо!
km@reshape.team
+7 926 555 15 53

Спасибо!km@reshape.team+7 926 555 15 53

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика