Слайд 3Размер и скорость роста датасферы
Слайд 4175 ЗЕТТАБАЙТ
175 000 000 000 000 000 000 000 байт
1
зеттабайт = 1 триллион гигабайт
10 245 901 639 345 DVD-дисков
Высота
стопки DVD: 17 076 502 км
44,4 расстояния до Луны
Слайд 5Обратное распространение ошибки
Пол Джон Вербос
Метод обратного распространения ошибки (англ. backpropagation)
— метод обучения многослойного перцептрона. Впервые метод был описан в
1974 г. Александром Ивановичем Галушкиным, а также независимо в том же году Полом Джоном Вербосом.
Основная идея метода состоит в распространении сигналов ошибки от выходов сети к её входам.
Для возможности применения метода обратного распространения ошибки передаточная функция нейронов должна быть дифференцируема.
Александр Иванович Галушкин
Слайд 6Сверточные нейронные сети
Свёрточные нейронные сети — особая архитектура нейронных сетей,
предложенная американским ученым французского происхождения Яном ЛеКуном, вдохновленным работами нобелевских
лауреатов в области медицины Торстеном Нильсом Визелем и Дэвидом Хьюбелом. Эти ученые исследовали зрительную кору головного мозга кошки и обнаружили, что существуют так называемые простые клетки, которые особо сильно реагируют на прямые линии под разными углами и сложные клетки, которые реагируют на движение линий в одном направлении.
Идея сверточных нейронных сетей заключается в чередовании сверточных слоев (C-layers), субдискретизирующих слоев (S-layers) и наличии полносвязных (F-layers) слоев на выходе.
Ян Лекун (англ. Yann LeCun) — французский учёный в области информатики, основные сферы деятельности — машинное обучение, компьютерное зрение, мобильная робототехника и вычислительная нейробиология.
Слайд 9Распознавание образов
Результаты ежегодных соревнований по распознаванию изображений ImageNet (ILSVRC, классификация)
Слайд 10Распознавание образов
GoogleBrain (2018), 89,33%
[AutoAugment + PyramidNet + ShakeDrop]
EfficientNet (2019), 91,70%
[EfficientNet-B7]
Слайд 13Long short-term memory (Долгая краткосрочная память)
Долгая краткосрочная память — разновидность
архитектуры рекуррентных нейронных сетей, предложенная в 1997 году Сеппом Хохрайтером
и Юргеном Шмидхубером. Как и большинство рекуррентных нейронных сетей, LSTM-сеть является универсальной в том смысле, что при достаточном числе элементов сети она может выполнить любое вычисление, на которое способен обычный компьютер, для чего необходима соответствующая матрица весов, которая может рассматриваться как программа. В отличие от традиционных рекуррентных нейронных сетей, LSTM-сеть хорошо приспособлена к обучению на задачах классификации, обработки и прогнозирования временных рядов в случаях, когда важные события разделены временными лагами с неопределённой продолжительностью и границами.
Юрген Шмидхубер
Слайд 14Распознавание речи
В октябре 2016 года команда разработчиков из подразделения Microsoft,
занимающегося исследованиями в области искусственного интеллекта (Microsoft Artificial Intelligence and
Research), сообщила о создании системы распознавания речи, которая делает то же или даже меньшее количество ошибок, чем люди, профессионально выполняющие эту работу. Исследователи сообщили о том, что пословная вероятность ошибки снизилась до 5,9% по сравнению с 6,3%, результатом, о котором сообщалось ещё в прошлом месяце.
Слайд 16Распознавание речи
A time delay neural network architecture for efficient modeling
of long temporal contexts
Purely sequence-trained neural networks for ASR
based on lattice-free MMI
The CAPIO 2017 Conversational Speech Recognition System
SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition
State-of-the-Art Speech Recognition Using Multi-Stream Self-Attention With Dilated 1D Convolutions
Слайд 17Немного о классических техниках
«Дар напрасный, дар случайный, жизнь, зачем ты
мне дана?»
Bag of words
{ ‘дар’: 2, ‘напрасный’: 1, ‘случайный’: 1,
‘жизнь’: 1, ‘зачем’: 1, ‘ты’: 1, ‘мне’: 1, ‘дана’: 1 }
N-Gram
{ ‘дар напрасный’: 1, ‘напрасный дар’: 1, ‘дар случайный’: 1, ‘случайный жизнь’: 1, ‘жизнь зачем’: 1, ‘зачем ты’: 1, ‘ты мне’: 1, ‘мне дана’: 1 }
One-hot vectors
дар: 10000000, напрасный: 01000000, случайный: 00100000, жизнь: 00010000, зачем: 00001000 …
Недостатки
Не учитываются семантические отношения между словами.
Данные крайне разрежены из-за большого числа измерений.
Усложнение моделей, построенных на данных представлениях, не приводит к существенному прогрессу.
Слайд 18Автокодировщик (AUTOENCODER)
Дана Гарри Баллард
Слайд 19Контекст
«Дар напрасный, дар случайный, жизнь, зачем ты мне дана»
«Жизнью дайте
ж насладиться; жизнь, увы, не вечный дар»
Эти слова характеризуют слово
«жизнь»
Удачная интуитивная гипотеза: статистические свойства контекстов определяют семантику слова.
Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Jauvin. A Neural Probabilistic Language Model (2003):
Word features (feature vector)
candy = {0.124, -0.553, 0.923, 0.345, -0.009}
Слайд 20Контекст
Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous
Space Word Representations.
Word2vec — программный инструмент анализа семантики естественных языков,
основанный на нейронных сетях; разработан группой исследователей Google в 2013 году. Работу над проектом возглавил Томаш Миколов (ныне работает в Facebook). Word2vec принимает большой текстовый корпус в качестве входных данных и сопоставляет каждому слову вектор, выдавая координаты слов на выходе.
Полученные представления векторов-слов позволяют вычислять «семантическое расстояние» между словами.
Альтернативные решения: GloVe, Lebret/Collobert, Luke Vilnis's density based word embeddings и т.п.
Слайд 24Разное
«В чём разница между снеговиком и снежной бабой? — Снежные
яйца (snowballs)»
«Люблю своих любовниц так же, как люблю кофе. Терпеть
его не могу»
© LSTM
Слайд 26Революция трансформеров
Чтобы оценить способность модели понимать язык, можно провести тест
на понимание прочитанного (например, аналогичный тесту на чтение SAT, включающего
в себя вопросы к тексту). Это можно сделать с помощью набора данных RACE (2017), крупнейшего общедоступного ресурса для этой цели. Успехи моделей при решении этой задачи хорошо отражают достижения в области моделирования языка за последние несколько лет: модель, предварительно обученная только с контекстно-независимыми представлениями слов, получила плохую оценку в этом тесте (45,9; крайняя левый столбик), а контекстный BERT относительно хорошую — 72,0. Усовершенствованные модели BERT, такие как XLNet и RoBERTa, устанавливают планку еще выше, в диапазоне 82—83 баллов. Конфигурация ALBERT-xxlarge дает оценку RACE в том же диапазоне (82,3) при обучении на базовом наборе данных BERT (Википедия + книги). Однако, когда он обучается на столь же большом наборе данных, что и XLNet и RoBERTa, то значительно превосходит все другие подходы.
Слайд 27Революция трансформеров: генеративные модели
Слайд 28Революция трансформеров: генеративные модели
Слайд 39Семантическая манипуляция изображениями
Слайд 40Семантическая манипуляция изображениями
Слайд 41Семантическая манипуляция изображениями
Слайд 42Генеративные состязательные сети (Generative adversarial networks)
Слайд 43Колоризация
Программист Райан Дал создал систему для автоматической раскраски снимков на
основе сверточных нейронных сетей.
В своей работе Дал использовал такую сверточную
сеть с четырьмя слоями. Для обучения Дал использовал обычные обесцвеченные цветные фотографии.
По словам самого разработчика, система еще далека от идеала: например, при раскраске предметов, которые могут быть разных цветов (скажем, автомобиля) система усредняет цвета. В результате машины на раскрашенных фотографиях оказываются «невероятных ярких» цветов.
Аналогичный проект разрабатывается исследователями из Калифорнийского университета в Беркли.
Слайд 45Машинный перевод: State of the art
Компания Google перевела свой сервис
Google Translate на глубинное обучение. По предварительным оценкам Google, нейросеть
обеспечивает гораздо лучшее качество перевода, чем обычные статистические методы. Перед запуском нейронной сети, её опробовали в сложнейшей языковой паре английский — китайский, и нейросеть сразу на 60% снизила количество ошибок перевода.
Слайд 47Распознавание человеческой активности
Слайд 48Оборудование
LOIHI
TrueNorth
TPU v3
Turing
?
?