Слайд 2Machine learning from scratch:
myth or reality?
Dmitry Kozlov
Kemerovo
January 25, 2018
URL:
http://goo.gl/V7mvD1
Слайд 3Data is the new Oil
We need to find it, extract
it, refine it, distribute it and monetize it.
Слайд 4The world’s most valuable resource is no longer oil, but
data
Слайд 9Applications of machine learning in real life
Fraud Detection
Customer churn prediction
Credit
scoring
Image recognition system
Recommender system
Anomaly detection
Network analysis
Cluster analysis
Natural Language Processing
Audio, Speech
recognition
etc.
Слайд 11Зачем?
Возможность получить интересную работу и сложные задачи
Развитие интуиции, собственная оценка
событий и фактов
Общие подходы к решениям задач в различных прикладных
областях
Применение в реальных практических задачах
Слайд 12Мотивация, фокус и желание
Английский язык (GitHub, arXiv, YouTube, Coursera, Google,
etc.)
Задавать вопросы на английском языке в Google
Хотя бы один язык
программирования (Python, R, С++, C, Java, Matlab, etc.)
Windows, macOS, Ubuntu
Поддержка сообщества
Что важно для старта?
Слайд 13Какие бывают данные?
Табличные данные
Временные ряды
Изображения
Видео
Текст
Звук
Другие...
Слайд 15Начать с практики
Столкнуться с проблемами
Найти решение в теории
Применить решение или
вернуться к пункту a)
KISS principle “Keep it simple, stupid”
Линейные модели
(Linear regression, Logistic Regression, Ridge regression, Lasso, SVM, Naive Bayes, etc.)
С чего начать?
Слайд 16Что нужно помнить?
Время ограничено, в том числе на обучение
Необходимо декомпозировать
сложные задачи
Проще начать с хорошо изученных областей машинного обучения
Помнить свою
цель обучения, выбирая образовательную траекторию
Слайд 17Какие инструменты?
Искать популярные инструменты на GitHub
Табличные данные (Pandas)
Линейный модели (Scikit-learn)
Градиентный
бустинг (LightGBM, CatBoost, XGBoost)
Нейронные сети (Tensorflow, Keras, PyTorch, Caffe, MXNet)
Оптимизация
гиперпараметров (Hyperopt)
Визуализация (Seaborn, Plotly, Bokeh, Matplotlib)
Слайд 18Какие ресурсы нужны?
Для анализа небольших табличных данных (Pandas, Scikit-learn, XGBoost,
LightGBM, etc):
Ноутбук / Домашний компьютер c SSD, RAM >= 4-8
GB, CPU >= 2
Для нейронных сетей, анализа текста, изображений и аудио - нужны видеокарты (GPU) от Nvidia
Слайд 20Какую IDE выбрать?
Jupyter Notebook
PyCharm
Vim
Любую, с которой вы уже знакомы и
хорошо ориентируетесь
Слайд 21Постоянно учиться и узнавать новое
Вспоминать лучшие наработки прошлого на практике
Погружаться
в детали и научные статьи, если есть необходимость модификации метода
или параметров
Что делать потом?
Слайд 22Что пригодится?
Линейная алгебра
Комбинаторика
Дискретная математика
Теория вероятности
Математический анализ
Методы оптимизации
Дифференциальные уравнения
Структуры данных
Визуализация данных
Теория
графов, алгоритмы на графах
Слайд 24Open Data Science
Крупнейшее русскоязычное Data Science сообщество, существует с 2015
года
Количество участников на данный момент: 10014
https://youtu.be/yPKu2vE4UqM?t=2h45m55s
Регистрация: http://ods.ai
Блог на хабре: https://habrahabr.ru/company/ods/
Слайд 25Что нужно знать про ODS?
История сообщений с 2015 года! (Поиск
по ключевым словам, каналам и авторам в Slack)
Встречи, конференции, Data
Science завтраки, тренировки, соревнования, вакансии, (#meetings, #kaggle_crackers, #deep_learning, #nlp, #proj_*,etc.)
Есть каналы и информация по всем темам так или иначе связанным с машинным обучением и анализом данных
Слайд 26Что нужно знать про ODS?
Обязательно стоит задавать вопросы в соответствующих
тематических каналах (правильный вопрос - это больше половины ответа)
Будьте осторожны, ODS затягивает
Слайд 27Что нужно знать про ODS?
Ежегодный
http://datafest.ru/
Большое количество специалистов из лучших
IT-компаний России всегда готовы ответить на Ваши вопросы и бесплатно
Несколько запусков бесплатного массового курса по машинному обучению ML Course ODS (участники сообщества делятся опытом с начинающими)
Слайд 28Что нужно знать про ODS?
Канал #welcome и #career - здесь
вы можете узнать биографию и карьеру многих участников ODS
#edu_books, #edu_coursees
Тренировки
по машинному обучению #mltrainings_beginners
Слайд 29#_meetings_siberia in ODS
Сибирская ячейка ODS, каналы: #_meetings_siberia, #_meetings_tomsk (Новосибирск (ЦФТ,
2ГИС, etc), Томск, Барнаул давно и активно встречаются, устраивают совместные
завтраки, митапы и конференции)
Календарь в Новосибирске https://goo.gl/RrSAa4
Meetup ODSS CFT 16.12.17
Слайд 31Тренировки по машинному обучению в Yandex
Анонс новых тренировок: https://events.yandex.ru/events/mltr
Видео с
прошедших тренировок: https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w)
Календарь соревнований: http://mltrainings.ru/
Слайд 32Платформа для соревнований по машинному обучению мирового уровня с обсуждением
задач и общим рейтингом участников
вместе
Быстрые проверки гипотез, больше экспериментов
Фокус на целевой метрике
Учиться на сложных
примерах
Расширять кругозор
Автоматизировать повторяющиеся операции
Собирать коллекцию трюков
Слайд 34Полезные ссылки
Тренировки по машинному обучению
Видео с тренировок по машинному обучению
https://www.coursera.org/learn/competitive-data-science
Слайд 35Полезные ссылки
Machine Learning
https://www.coursera.org/specializations/aml
Reinforcement learning (#reinfocement_learnin ODS):
https://www.youtube.com/watch?v=PtAIh9KSnjo
https://www.coursera.org/learn/practical-rl
https://www.edx.org/course/reinforcement-learning-explained-microsoft-dat257x
http://rll.berkeley.edu/deeprlcourse/
https://www.youtube.com/watch?v=2pWv7GOvuf0
Слайд 36Полезные ссылки
Natural Language Processing (#nlp in ODS):
http://web.stanford.edu/class/cs224n/
https://www.youtube.com/watch?v=OQQ-W_63UgQ
https://www.coursera.org/learn/language-processing
http://deephack.me/
Self-driving cars (#self_driving in
ODS):
https://www.udacity.com/courses/self-driving-car
https://selfdrivingcars.mit.edu/
Слайд 37Полезные ссылки
Deep Learning (#deep_learning in ODS):
http://vision.stanford.edu/teaching/cs231n/
https://www.coursera.org/specializations/deep-learning
https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk
https://www.youtube.com/watch?v=Am82yvUSwRE
http://vision.stanford.edu/teaching/cs131_fall1718/
https://www.youtube.com/watch?v=p5SjqD7Ut4Y&list=PLbwKcm5vdiSYL_yEwQ6JIICBA4dMtHNxo
Слайд 38Полезные ссылки
Big Data (#big_data in ODS)
http://mattturck.com/wp-content/uploads/2017/05/Matt-Turck-FirstMark-2017-Big-Data-Landscape.png
https://www.coursera.org/learn/big-data-essentials
https://www.coursera.org/courses?languages=en&query=Yandex
Слайд 39Полезные ссылки
Разбор лучших решений Kaggle:
http://ndres.me/kaggle-past-solutions/
https://www.kaggle.com/wiki/PastSolutions
http://www.chioka.in/kaggle-competition-solutions/
Блог Александра Дьяконова
Беседы с гуру Data
Science
https://github.com/rushter/data-science-blogs
Слайд 40Полезные ссылки
Крупнейшие научные конференции: NIPS, ICML, CVPR, ICCV, KDD
Видео: NIPS,
ICML, CVPR+ICCV, KDD
Слайд 41Школы анализа данных: Yandex, Mail.ru
https://yandexdataschool.ru/
https://sphere.mail.ru
Слайд 42Вопросы?
dmitry.f.kozlov@gmail.com
Telegram: @dfkozlov