Разделы презентаций


Финансовый университет при Правительстве РФ Департамент анализа данных,

В предыдущей лекции Визуализация качественных признаков в Microsoft Excel. Сводные таблицы и сводные диаграммы в Microsoft Excel. Таблицы сопряженности и парадокс Симпсона. Иерархия признаков в Microsoft Excel.

Слайды и текст этой презентации

Слайд 1Финансовый университет при Правительстве РФ Департамент анализа данных, принятия решений и

финансовых технологий АНАЛИЗ ДАННЫХ
Тема 1. Данные в экономике, их визуализация и

предварительная обработка

Доцент Соловьев А.И., кандидат технических наук, доцент


Лекция 1.4 Предварительная обработка данных.
Выбросы и их обработка в Microsoft Excel.
Пропущенные значения и их обработка в Microsoft Excel.
Повторяющиеся строки и их обработка в Microsoft Excel.
Синтетические признаки.

Финансовый университет при Правительстве РФ Департамент анализа данных, принятия решений и финансовых технологий  АНАЛИЗ ДАННЫХТема 1.

Слайд 2 В предыдущей лекции

Визуализация качественных признаков в Microsoft Excel.




Сводные таблицы и сводные диаграммы в Microsoft Excel.


Таблицы сопряженности

и парадокс Симпсона.


Иерархия признаков в Microsoft Excel.
В предыдущей лекции Визуализация качественных признаков в Microsoft Excel. Сводные таблицы и сводные диаграммы в Microsoft

Слайд 31. Предварительная обработка данных

В предыдущих лекциях мы рассмотрели визуализацию количественных

и качественных признаков.
Это помогает правильно определить дальнейшие направления анализа

данных.

Другой важной задачей является предварительная подготовка данных. Это составляет значительную часть работы по анализу данных. Это связано с тем, что:
Данные, с которыми мы имеем дело на практике, не идеальны (ошибки, пропущен, повторы, выбросы), что сильно осложняющие их анализ.
Предварительная обработка данных может занимать столько же времени, сколько их анализ с помощью различных интеллектуальных технологий, а часто даже больше.
1. Предварительная обработка данныхВ предыдущих лекциях мы рассмотрели визуализацию количественных и качественных признаков. Это помогает правильно определить

Слайд 42. Выбросы и их обработка в Microsoft Excel
Одной из самых

типичных и самых важных проблем, является проблема выбросов. Они которые

искажают характеристики признаков и их взаимосвязей.
Выбросы - это значения признака, не попадающие в отрезок
[x0,25 – 1,5IQR; x0,75 + 1,5IQR].
Первым шагом при поиске выбросов является визуализация данных с помощью диаграмм размаха и диаграмм рассеяния.
Первый вопрос – является ли «кандидат» в выбросы действительно выбросом, либо в данных есть важные специальные подмножества, которые нужно рассматривать отдельно.
Часто выбросы связаны с ошибками людей, участвовавших в подготовке наборов данных – ошибки ввода данных (пропуск десятичной запятой или ввод не в ту ячейку).
Иногда выбросы следует отбросить, чтобы избежать искажения результатов.
2. Выбросы и их обработка в Microsoft ExcelОдной из самых типичных и самых важных проблем, является проблема

Слайд 52. Выбросы и их обработка в Microsoft Excel
В ряде ситуаций

выбросы являются важнейшим предметом исследования.
Например,
в задаче обнаружения мошеннических

транзакций по банковским картам именно выбросы — необычные, нетипичные транзакции — представляют основной интерес. Если отбросить выбросы или заменить их типичными транзакциями, то, очевидно, что задача определения мошеннических транзакций решена не будет.
В общем случае, варианты работы с выбросами:
- замена выброса значением в соответствующих границах отрезка
[x0,25 – 1,5IQR; x0,75 + 1,5IQR];
- обработка выброса как пропущенного значения. Замечание. Как правило, для каждого признака X целесообразно добавить в набор данных специальный признак Xвыбр., значение которого равно единице, в случае, если значение при знака X в данной строке исходного набора данных было классифицировано как выброс.


2. Выбросы и их обработка в Microsoft ExcelВ ряде ситуаций выбросы являются важнейшим предметом исследования. Например, в

Слайд 63. Пропущенные значения и их обработка в Microsoft Excel
Следующей проблемой

анализа данных является отсутствие в наборах данных некоторых значений. Они

могут быть неизвестны по какой-либо причине, могут быть утрачены, могут появиться в результате обработки выбросов.
ВАЖНО: Многие методы анализа данных невозможно использовать, если набор данных содержит пустые ячейки.




Иногда можно догадаться, какое значение должно быть в соответствующей ячейке.
Догадаться, сколько кредитов было выдано 2 августа, невозможно. В таком случае можно, например, заполнить пропущенное значение средним, медианой или модой.
3. Пропущенные значения и их обработка в Microsoft ExcelСледующей проблемой анализа данных является отсутствие в наборах данных

Слайд 73. Пропущенные значения и их обработка в Microsoft Excel
В реальных

наборах данных пропущенным значениям не всегда соответствуют пустые ячейки. Вместо

пропущенных чисел могут использоваться специальные коды.
Например:
- в Microsoft Excel используются следующие коды ошибок: «#ДЕЛ/0!», «#Н/Д», «#ИМЯ?», «#ПУСТО!», «#ЧИСЛО!», «#ССЫЛКА!», «#ЗНАЧ!».
- в других системах могут использоваться коды «NA» (Not Available), «NaN» (Not a Number) и др.
- ряд систем для обозначения ошибок и отсутствующих значений числовых признаков вставляют нули или специальные числовые коды, например, «9999» или «99999999».


3. Пропущенные значения и их обработка в Microsoft ExcelВ реальных наборах данных пропущенным значениям не всегда соответствуют

Слайд 83. Пропущенные значения и их обработка в Microsoft Excel
Общие варианты

работы с пропущенными значениями:
замена средним или медианой (это два

наиболее часто используемых метода, но только для количественных признаков);
удаление целой строки (удаление строки приводит к потере информации. Этим методом пользуются тогда, когда потеря информации допустима);
замена специальным значением (пропуск признака «Число задержек платежей по кредиту» в наборе данных о заемщиках банка целесообразно заменить нулем, т.е. «Долгов нет»);
замена с помощью метода ближайших соседей (вычисление среднего, но не по всему столбцу, а по нескольким близким строкам — ближайшим соседям);
замена модой (замена модой применяется к качественным признакам);
замена с помощью специальных методов (заполнения пропущенных значений с помощью сингулярного разложения, линейной регрессии, случайного леса, метода K-средних и др. — «Машинное обучение»).
Замечание. Как правило, при замене пропущенных значений для каждого признака X целесообразно добавить в набор данных специальный признак Xпропущ., значение которого равно единице, в случае, если значение признака X в данной строке исходного набора данных от сутствовало и было каким либо образом синтезировано.
3. Пропущенные значения и их обработка в Microsoft ExcelОбщие варианты работы с пропущенными значениями: замена средним или

Слайд 94. Повторяющиеся строки и их обработка в Microsoft Excel
Повторяющиеся в

наборе данных строки искажают результаты анализа данных, усиливая тенденции, которые,

часто, не соответствуют действительности.
Перед проведением анализа данных из нескольких дублирующих строк оставляет оставить одну.
В общем случае, варианты обработки повторяющихся строк:
- сохранение первой строки с удалением оставшихся;
- сохранение последней строки с удалением оставшихся;
- объединение повторяющихся строк в одну с вычислением средних значений для каждого количественного признака и мод для каждого качественного признака.









4. Повторяющиеся строки и их обработка в Microsoft ExcelПовторяющиеся в наборе данных строки искажают результаты анализа данных,

Слайд 105. Синтетические признаки
Важным этапом решения задач анализа данных является поиск

синтетических признаков (проектирование признаков).
Синтетические признаки являющихся определенными функциями от исходных

признаков: удачно построенные синтетические признаки очень помогают находить в данных закономерности, определять общие свойства объектов и различия между ними.
Например: Если в задаче анализа данных о заемщиках известен размер ежемесячного платежа по кредиту и средний размер месячного дохода, то, как правило, полезно рассмотреть дополнительный признак — долю ежемесячного платежа по кредиту в месячном доходе.
Синтез новых признаков связан не столько с содержательным смыслом задачи, сколько с необходимостью использования статистических методов, основанных на применении следствий из законов распределения данных.
Бывает полезно рассмотреть синтетические признаки, являющиеся квадратами, квадратными корнями, логарифмами исходных признаков, произведениями и частными парами признаков и т. п.


5. Синтетические признакиВажным этапом решения задач анализа данных является поиск синтетических признаков (проектирование признаков).Синтетические признаки являющихся определенными

Слайд 115. Синтетические признаки
Признаки в наборе данных могут иметь одинаковую природу

и одинаковые единицы измерения (сколько времени в месяц люди тратят

на работу, домашние дела и развлечения (все три признака имеют одинаковый масштаб и в единицах времени). Анализ транзакций по пластиковым картам дает набор данных, содержащий структуру затрат держателей пластиковых карт — сколько люди тратят на еду, на путешествия, на развлечения и т. д., здесь все признаки будут иметь сходный масштаб и измеряться в тыс. руб.
Но так бывает редко. Большинство реальных наборов данных, с которыми приходится иметь дело в экономике, управлении, финансах, состоят из нескольких признаков, имеющих принципиально разную природу и измеряющихся в разных единицах.
При анализе данных бывают важны относительные взаимосвязи между признаками, не только между их абсолютными значениями. Кроме того, многие методы анализа данных работают только в том случае, когда признаки имеют одинаковый масштаб.
5. Синтетические признакиПризнаки в наборе данных могут иметь одинаковую природу и одинаковые единицы измерения (сколько времени в

Слайд 125. Синтетические признаки
Как правило, нужно приводить признаки к единому масштабу.

Чтобы это сделать, наиболее часто используются два способа преобразования признаков:

- переход от признака X к признаку


приводит к тому, что у нового признака будет нулевое среднее и стандартное отклонение, равное единице. Это z-преобразование;
- преобразование признака X в признак

гарантирует, что новый признак будет принимать значения из отрезка [0; 1].
Это min-max преобразование;
- может подойти и обычное нормирование Х/хмах.

5. Синтетические признакиКак правило, нужно приводить признаки к единому масштабу. Чтобы это сделать, наиболее часто используются два

Слайд 136. Заключение

В любом случае,
при анализе выбросов;
при обработке

пропущенных значений;
при удалении повторяющихся строк;
синтезировании признаков,
очень важно разбираться в

предметной области, соответствующей исследуемому набору данных, и принимать решения об очистке, трансформации и проектировании данных с учетом специфики предметной области, содержательного смысла конкретной ситуации и задачи.







6. Заключение В любом случае, при анализе выбросов; при обработке пропущенных значений; при удалении повторяющихся строк;синтезировании признаков,очень

Слайд 145. Семинар 1.4



Задание: решение задач по плану преподавателя.



5. Семинар 1.4 Задание: решение задач по плану преподавателя.

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика