Разделы презентаций


Методы обогащения данных

Содержание

Проблема

Слайды и текст этой презентации

Слайд 1Методы стандартизации, очистки и обогащения данных

Методы стандартизации, очистки и обогащения данных

Слайд 2Проблема

Проблема

Слайд 3
Решение
Комплекс мер по улучшению качества данных


РешениеКомплекс мер по улучшению качества данных

Слайд 4Стандартизация: понятие
Стандартизация – это унификация представления и приведение к единому

формату данных.
Задачи:
Нормализация баз данных с целью удаления избыточности: разбиение на

несколько таблиц, выделение первичных ключей…
Разбор строк на атомарные объекты: разделение поля «ФИО» на значения «Фамилия», «Имя», «Отчество», разбор адреса по КЛАДР…
Унификация представления: преобразование номеров телефонов к стандартному виду +7 (ХХХ) ХХХХХХХ…


Стандартизация: понятиеСтандартизация – это унификация представления и приведение к единому формату данных.Задачи:Нормализация баз данных с целью удаления

Слайд 5Стандартизация: парсинг
Парсинг – грамматический или лексический анализ текста. Осуществляет деление

поля на атомарные значения.

Стандартизация: парсингПарсинг – грамматический или лексический анализ текста. Осуществляет деление поля на атомарные значения.

Слайд 6Стандартизация: словари
Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…)

позволяет стандартизировать представление данных.


Стандартизация: словариИспользование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет стандартизировать представление данных.

Слайд 7Стандартизация: регулярные выражения
Регулярные выражения позволяют производить манипуляции с данными, используя

шаблоны:
находить в строке подстроки, удовлетворяющие заданному шаблону: поиск жителей, прописанных

в Москве…
извлекать из строки фрагменты, с заданным стандартом написания: выделение почтового индекса или года рождения…
изменять в строке подстроки, соответствующие шаблону: удаление нечисловых символов из паспортных данных или телефона…
проверять, соответствует ли строка заданному шаблону: проверка корректности e-mail…
Стандартизация: регулярные выраженияРегулярные выражения позволяют производить манипуляции с данными, используя шаблоны:находить в строке подстроки, удовлетворяющие заданному шаблону:

Слайд 8Очистка данных: понятие
Очистка данных – процесс выявления и исправления ошибок,

позволяющий обеспечить качественный анализ.

Задачи:
Оценка достоверности информации
Выявление ошибочных и подозрительных

данных: аномалий, дубликатов, противоречий…
Исправление выявленных ошибок





Очистка данных: понятиеОчистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Задачи:Оценка достоверности информацииВыявление

Слайд 9Очистка: частотный анализ
Метод основывается на анализе частоты появления определенного значения

или комбинаций таких значений во всей совокупности данных.


Очистка: частотный анализМетод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности

Слайд 10Очистка: контрольные числа
В основе алгоритма контрольных чисел лежит расчет определенных

функций, которые применяются для проверки правильности номеров банковских карт, ИНН,

СНИЛС, ОКПО, ОКАТО, ОГРН…


ИНН введен с ошибкой

Контрольные числа не совпадают


Очистка: контрольные числаВ основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров

Слайд 11Очистка: схожесть строк
Анализ строк выявляет «похожесть» записей с помощью алгоритмов

сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности…


Игорь


Игроь

Очистка: схожесть строкАнализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной

Слайд 12Очистка: дедубликация
Дедубликация основывается на поиске совпадающих и похожих объектов по

определенным стратегиям с целью устранения повторов.

Стратегия поиска 1:
совпадение паспортных данных
Стратегия

поиска 2:
совпадение ФИО + адрес + дата рождения

Стратегия поиска 3:
совпадение ФИО + телефон



Стратегия поиска 4:
совпадение ИНН

Очистка: дедубликацияДедубликация основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов.Стратегия поиска

Слайд 13Очистка: другие методы
Для очистки данных используются и другие методы:

Формализованные правила:

накладывание заранее определенных правил очистки на контролируемые поля
Способы замены: индексирование

слов по их звучанию, кодирование…
Проверка по статистическим значениям: по доверительному интервалу, средним значениям…
Кластерный анализ: проверка написания значения с учетом попадания его в кластер…


Очистка: другие методыДля очистки данных используются и другие методы:Формализованные правила: накладывание заранее определенных правил очистки на контролируемые

Слайд 14Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать

их более ценными, значимыми и информативными с точки зрения решения

той или иной аналитической задачи.

Задачи:
Интеграция данных из множества источников
Выявление связей между объектами
Заполнение пропусков
Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными, значимыми и информативными с

Слайд 15Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними.
Обогащение:

анализ связей

?
Анализ друзей в социальной сети


Друзья в социальной сети

Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними.Обогащение: анализ связей?Анализ друзей в социальной сетиДрузья в

Слайд 16
Обогащение: поиск близких объектов
Поиск близких объектов основывается на «схожести» значений

признаков объектов.



Иванов
Сидоров
Иванов
Петров
Воробьев
Ивакин

Обогащение: поиск близких объектовПоиск близких объектов основывается на «схожести» значений признаков объектов.ИвановСидоровИвановПетровВоробьевИвакин

Слайд 17Обогащение: другие методы
Обогащение данных предполагает применение и комбинирование множества методов:
Реорганизация

самих данных: введение кодировок, признаков состояний объектов, подразделение их на

категории…
Нечеткий поиск: восстановление пропусков с помощью нечетких запросов…
Анализ источников данных: рейтингование источников данных по достоверности…
Обогащение: другие методыОбогащение данных предполагает применение и комбинирование множества методов:Реорганизация самих данных: введение кодировок, признаков состояний объектов,

Слайд 18Результат

Результат

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика