Слайд 1Финансовый университет при Правительстве РФ
Департамент анализа данных, принятия решений и
финансовых технологий
АНАЛИЗ ДАННЫХ
Тема 1. Данные в экономике, их визуализация
и
предварительная обработка
Доцент Соловьев А.И., кандидат технических наук, доцент
Лекция 1.4 Предварительная обработка данных.
Выбросы и их обработка в Microsoft Excel.
Пропущенные значения и их обработка в Microsoft Excel.
Повторяющиеся строки и их обработка в Microsoft Excel.
Синтетические признаки.
Слайд 2 В предыдущей лекции
Визуализация качественных признаков в Microsoft Excel.
Сводные таблицы и сводные диаграммы в Microsoft Excel.
Таблицы сопряженности
и парадокс Симпсона.
Иерархия признаков в Microsoft Excel.
Слайд 31. Предварительная обработка данных
В предыдущих лекциях мы рассмотрели визуализацию количественных
и качественных признаков.
Это помогает правильно определить дальнейшие направления анализа
данных.
Другой важной задачей является предварительная подготовка данных. Это составляет значительную часть работы по анализу данных. Это связано с тем, что:
Данные, с которыми мы имеем дело на практике, не идеальны (ошибки, пропущен, повторы, выбросы), что сильно осложняющие их анализ.
Предварительная обработка данных может занимать столько же времени, сколько их анализ с помощью различных интеллектуальных технологий, а часто даже больше.
Слайд 42. Выбросы и их обработка в Microsoft Excel
Одной из самых
типичных и самых важных проблем, является проблема выбросов. Они которые
искажают характеристики признаков и их взаимосвязей.
Выбросы - это значения признака, не попадающие в отрезок
[x0,25 – 1,5IQR; x0,75 + 1,5IQR].
Первым шагом при поиске выбросов является визуализация данных с помощью диаграмм размаха и диаграмм рассеяния.
Первый вопрос – является ли «кандидат» в выбросы действительно выбросом, либо в данных есть важные специальные подмножества, которые нужно рассматривать отдельно.
Часто выбросы связаны с ошибками людей, участвовавших в подготовке наборов данных – ошибки ввода данных (пропуск десятичной запятой или ввод не в ту ячейку).
Иногда выбросы следует отбросить, чтобы избежать искажения результатов.
Слайд 52. Выбросы и их обработка в Microsoft Excel
В ряде ситуаций
выбросы являются важнейшим предметом исследования.
Например,
в задаче обнаружения мошеннических
транзакций по банковским картам именно выбросы — необычные, нетипичные транзакции — представляют основной интерес. Если отбросить выбросы или заменить их типичными транзакциями, то, очевидно, что задача определения мошеннических транзакций решена не будет.
В общем случае, варианты работы с выбросами:
- замена выброса значением в соответствующих границах отрезка
[x0,25 – 1,5IQR; x0,75 + 1,5IQR];
- обработка выброса как пропущенного значения.
Замечание. Как правило, для каждого признака X целесообразно добавить в набор данных специальный признак Xвыбр., значение которого равно единице, в случае, если значение при знака X в данной строке исходного набора данных было классифицировано как выброс.
Слайд 63. Пропущенные значения и их обработка в Microsoft Excel
Следующей проблемой
анализа данных является отсутствие в наборах данных некоторых значений. Они
могут быть неизвестны по какой-либо причине, могут быть утрачены, могут появиться в результате обработки выбросов.
ВАЖНО: Многие методы анализа данных невозможно использовать, если набор данных содержит пустые ячейки.
Иногда можно догадаться, какое значение должно быть в соответствующей ячейке.
Догадаться, сколько кредитов было выдано 2 августа, невозможно. В таком случае можно, например, заполнить пропущенное значение средним, медианой или модой.
Слайд 73. Пропущенные значения и их обработка в Microsoft Excel
В реальных
наборах данных пропущенным значениям не всегда соответствуют пустые ячейки. Вместо
пропущенных чисел могут использоваться специальные коды.
Например:
- в Microsoft Excel используются следующие коды ошибок: «#ДЕЛ/0!», «#Н/Д», «#ИМЯ?», «#ПУСТО!», «#ЧИСЛО!», «#ССЫЛКА!», «#ЗНАЧ!».
- в других системах могут использоваться коды «NA» (Not Available), «NaN» (Not a Number) и др.
- ряд систем для обозначения ошибок и отсутствующих значений числовых признаков вставляют нули или специальные числовые коды, например, «9999» или «99999999».
Слайд 83. Пропущенные значения и их обработка в Microsoft Excel
Общие варианты
работы с пропущенными значениями:
замена средним или медианой (это два
наиболее часто используемых метода, но только для количественных признаков);
удаление целой строки (удаление строки приводит к потере информации. Этим методом пользуются тогда, когда потеря информации допустима);
замена специальным значением (пропуск признака «Число задержек платежей по кредиту» в наборе данных о заемщиках банка целесообразно заменить нулем, т.е. «Долгов нет»);
замена с помощью метода ближайших соседей (вычисление среднего, но не по всему столбцу, а по нескольким близким строкам — ближайшим соседям);
замена модой (замена модой применяется к качественным признакам);
замена с помощью специальных методов (заполнения пропущенных значений с помощью сингулярного разложения, линейной регрессии, случайного леса, метода K-средних и др. — «Машинное обучение»).
Замечание. Как правило, при замене пропущенных значений для каждого признака X целесообразно добавить в набор данных специальный признак Xпропущ., значение которого равно единице, в случае, если значение признака X в данной строке исходного набора данных от сутствовало и было каким либо образом синтезировано.
Слайд 94. Повторяющиеся строки и их обработка в Microsoft Excel
Повторяющиеся в
наборе данных строки искажают результаты анализа данных, усиливая тенденции, которые,
часто, не соответствуют действительности.
Перед проведением анализа данных из нескольких дублирующих строк оставляет оставить одну.
В общем случае, варианты обработки повторяющихся строк:
- сохранение первой строки с удалением оставшихся;
- сохранение последней строки с удалением оставшихся;
- объединение повторяющихся строк в одну с вычислением средних значений для каждого количественного признака и мод для каждого качественного признака.
Слайд 105. Синтетические признаки
Важным этапом решения задач анализа данных является поиск
синтетических признаков (проектирование признаков).
Синтетические признаки являющихся определенными функциями от исходных
признаков: удачно построенные синтетические признаки очень помогают находить в данных закономерности, определять общие свойства объектов и различия между ними.
Например: Если в задаче анализа данных о заемщиках известен размер ежемесячного платежа по кредиту и средний размер месячного дохода, то, как правило, полезно рассмотреть дополнительный признак — долю ежемесячного платежа по кредиту в месячном доходе.
Синтез новых признаков связан не столько с содержательным смыслом задачи, сколько с необходимостью использования статистических методов, основанных на применении следствий из законов распределения данных.
Бывает полезно рассмотреть синтетические признаки, являющиеся квадратами, квадратными корнями, логарифмами исходных признаков, произведениями и частными парами признаков и т. п.
Слайд 115. Синтетические признаки
Признаки в наборе данных могут иметь одинаковую природу
и одинаковые единицы измерения (сколько времени в месяц люди тратят
на работу, домашние дела и развлечения (все три признака имеют одинаковый масштаб и в единицах времени). Анализ транзакций по пластиковым картам дает набор данных, содержащий структуру затрат держателей пластиковых карт — сколько люди тратят на еду, на путешествия, на развлечения и т. д., здесь все признаки будут иметь сходный масштаб и измеряться в тыс. руб.
Но так бывает редко. Большинство реальных наборов данных, с которыми приходится иметь дело в экономике, управлении, финансах, состоят из нескольких признаков, имеющих принципиально разную природу и измеряющихся в разных единицах.
При анализе данных бывают важны относительные взаимосвязи между признаками, не только между их абсолютными значениями. Кроме того, многие методы анализа данных работают только в том случае, когда признаки имеют одинаковый масштаб.
Слайд 125. Синтетические признаки
Как правило, нужно приводить признаки к единому масштабу.
Чтобы это сделать, наиболее часто используются два способа преобразования признаков:
- переход от признака X к признаку
приводит к тому, что у нового признака будет нулевое среднее и стандартное отклонение, равное единице. Это z-преобразование;
- преобразование признака X в признак
гарантирует, что новый признак будет принимать значения из отрезка [0; 1].
Это min-max преобразование;
- может подойти и обычное нормирование Х/хмах.
Слайд 136. Заключение
В любом случае,
при анализе выбросов;
при обработке
пропущенных значений;
при удалении повторяющихся строк;
синтезировании признаков,
очень важно разбираться в
предметной области, соответствующей исследуемому набору данных, и принимать решения об очистке, трансформации и проектировании данных с учетом специфики предметной области, содержательного смысла конкретной ситуации и задачи.
Слайд 145. Семинар 1.4
Задание: решение задач по плану преподавателя.