Разделы презентаций


Кружок по искусственному интеллекту

Содержание

План занятияОбщие рекомендации по анализу данныхРабота с текстовыми даннымиАнализ результатов

Слайды и текст этой презентации

Слайд 1Кружок по искусственному интеллекту
Семинар 4
Организатор: Зубрихина Мария

Кружок по искусственному интеллектуСеминар 4Организатор: Зубрихина Мария

Слайд 2План занятия

Общие рекомендации по анализу данных
Работа с текстовыми данными
Анализ результатов

План занятияОбщие рекомендации по анализу данныхРабота с текстовыми даннымиАнализ результатов

Слайд 3Обработка и анализ данных
feature extraction and feature engineering – превращение

данных, специфических для предметной области, в понятные для модели векторы
feature

transformation – трансформация данных для повышения точности алгоритма;
feature selection – отсечение ненужных признаков



Обработка и анализ данныхfeature extraction and feature engineering – превращение данных, специфических для предметной области, в понятные

Слайд 4Обработка и анализ данных
Построение матриц ошибок
Построение гистограмм, анализ коррелирующих признаков,

Обработка и анализ данныхПостроение матриц ошибокПостроение гистограмм, анализ коррелирующих признаков,

Слайд 5Признаки
Вещественные (Возраст, площадь квартиры)
Бинарные ( Доход клиента больше среднего по

городу?)
Порядковые (тип населенного пункта,размер одежды,образование)
Категориальные (цвет глаз, город)





ПризнакиВещественные (Возраст, площадь квартиры)Бинарные ( Доход клиента больше среднего по городу?)Порядковые (тип населенного пункта,размер одежды,образование)Категориальные (цвет глаз,

Слайд 6Label Encoder

Label Encoder

Слайд 7Оne-hot-кодирование

Оne-hot-кодирование

Слайд 8Другие способы кодирования

Другие способы кодирования

Слайд 9Обработка и анализ текстовых данных
- токенизация (nltk)
- приведение к одному

регистру
- лемматизация (nltk, pymorphy )

- удаление нерелевантных слов ( re)

Обработка и анализ текстовых данных	- токенизация (nltk)	- приведение к одному регистру    - лемматизация (nltk,

Слайд 10Векторизация текста
Разбиение текста на слова и преобразование каждого слова в

вектор
Разбиение текста на символы и преобразование каждого символа в вектор
Извлечение

N-грамм и их преобразование в вектор
Векторизация текстаРазбиение текста на слова и преобразование каждого слова в векторРазбиение текста на символы и преобразование каждого

Слайд 11Преобазование токенов в векторы
One-hot encoding( прямое кодирование слов и символов)
One-hot

hashing trick ( прямое хеширование признаков)
Embeddings (векторное представление слов) (Word2vec,

Glove, Fasttext)
Преобазование токенов в векторыOne-hot encoding( прямое кодирование слов и символов)One-hot hashing trick ( прямое хеширование признаков)Embeddings (векторное

Слайд 12Bag of words («Мешок слов»)

Bag of words («Мешок слов»)

Слайд 13N-граммы

N-граммы

Слайд 14TF-IDF
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой

некоторое слово встречается в документах коллекции. 
TF (term frequency — частота слова) — отношение

числа вхождений некоторого слова к общему числу слов документа.
TF-IDFIDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. TF (term frequency —

Слайд 15Embeddings
Малоразмерные представления
Геометрические отношения между векторами отражают семантические связи

Embeddings Малоразмерные представленияГеометрические отношения между векторами отражают семантические связи

Слайд 16Embeddings

Embeddings

Слайд 17Спасибо за внимание!

Спасибо за внимание!

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика