Разделы презентаций


Лингвистика для математиков

Содержание

Домашка до 13 февtg @annaklezovichanna.klezovich@yandex.ru дедлайн кродеться

Слайды и текст этой презентации

Слайд 1Лингвистика для математиков
Нормализация текста 2 + Коллокации

Лингвистика для математиковНормализация текста 2 + Коллокации

Слайд 2Домашка до 13 фев

tg @annaklezovich
anna.klezovich@yandex.ru
дедлайн кродеться

Домашка до 13 февtg @annaklezovichanna.klezovich@yandex.ru    дедлайн кродеться

Слайд 3Домашнее задание (оцениваемое)
Напишите правила для своей ELIZA, но с

каким-то другим концептом, не психолога :)
паттерн описанный регуляркой у собеседника

+ ответная реплика ELIZA тоже описанная регуляркой. Помните, что \1 так обозначается сгруппированная информация из сообщения собеседника. То, что у него в скобочках (). Если скобочек в регулярке собеседника несколько, то сгруппированную из них информацию в ответе ELIZA можно последовательно обозначать \1, \2 и т.д.
Например: Я: Мне очень грустно и я хочу есть = [Мм]не (.*) и я? хочу (.*) ELIZA: Может, тебе очень грустно из-за того, что ты хочешь есть? = Может, тебе \1 из-за того, что ты хочешь \2?
Домашнее задание (оцениваемое) Напишите правила для своей ELIZA, но с каким-то другим концептом, не психолога :)паттерн описанный

Слайд 4Recap
Алгоритмы для исправления опечаток - approximate string matching
Формальные языки →

формальные грамматики → регулярные языки
Регулярные выражения
Токенизация и алгоритмы для

токенизации
Тема: Нормализация текстов:
our progress bar

. . .

Лемматизация + стемминг

RecapАлгоритмы для исправления опечаток - approximate string matchingФормальные языки → формальные грамматики → регулярные языки Регулярные выраженияТокенизация

Слайд 5Токенизация последнее
Что же делать с 기반으로 и с 唯一的看点大?
SentencePiece (2018)
https://medium.com/the-artificial-impostor/nlp-using-sentencepiece-without-pretokenization-3f2c8786cd95

Токенизация последнееЧто же делать с 기반으로 и с 唯一的看点大?SentencePiece (2018)https://medium.com/the-artificial-impostor/nlp-using-sentencepiece-without-pretokenization-3f2c8786cd95

Слайд 6Лемматизация и стемминг
Стемминг -- лемматизация для бедных
Потому что просто отрубаем

окончания на основе какого-то общего абстрактного алгоритма, лемматизация же больше

учитывает морфологию
Лемматизация и стеммингСтемминг -- лемматизация для бедныхПотому что просто отрубаем окончания на основе какого-то общего абстрактного алгоритма,

Слайд 7The Porter stemmer
Алгоритм Портера для выделения основы помогает отделять аффиксы

от основы слова

The Porter stemmerАлгоритм Портера для выделения основы помогает отделять аффиксы от основы слова

Слайд 8Стеммер Портера
Каскадные правила, пример:

Стеммер ПортераКаскадные правила, пример:

Слайд 9Стемминг
Ошибки в стеммерах…
Выгодно применять только в рамках одной леммы
Лемматизация же

отталкивается больше от морфологии и контекста

СтеммингОшибки в стеммерах…Выгодно применять только в рамках одной леммыЛемматизация же отталкивается больше от морфологии и контекста

Слайд 10Разделение на предложения
По сути ищем знаки препинания с помощью регулярных

выражений
Mr. \ a.m. и т.д. -- Что делать со знаками

препинания внутри слов?
Считать ли клаузу предложением? Аналогичная проблема как с определением термина слово


Разделение на предложенияПо сути ищем знаки препинания с помощью регулярных выраженийMr. \ a.m. и т.д. -- Что

Слайд 11Разделения на предложения
E O S = end of sentence
Алгоритм decision

tree
Как выбирать параметры? Machine learning

Разделения на предложенияE O S = end of sentenceАлгоритм decision treeКак выбирать параметры? Machine learning

Слайд 12Коллокации

Коллокации

Слайд 13Композициональность

Композициональность

Слайд 14Пример композициональности

Пример композициональности

Слайд 15Нарушения композициональности

Нарушения композициональности

Слайд 16Нарушения композициональности

Нарушения композициональности

Слайд 17Нарушения композициональности
Принятая классификация для английского языка с примерами:

Нарушения композициональностиПринятая классификация для английского языка с примерами:

Слайд 18Так что же такое коллокации?

Так что же такое коллокации?

Слайд 19Так что же такое коллокации?

Так что же такое коллокации?

Слайд 20Зачем нужны коллокации?

Зачем нужны коллокации?

Слайд 21Основные свойства коллокаций

Основные свойства коллокаций

Слайд 22Виды коллокаций
Грамматические: come to, fond of, afraid of, put on


Семантические: разрешены некоторые синонимы (но не все)
Нефиксированные: find/discover/notice

by chance
Виды коллокацийГрамматические: come to, fond of, afraid of, put on … Семантические: разрешены некоторые синонимы (но не

Слайд 23Структура коллокации

Структура коллокации

Слайд 24Автоматическое выделение коллокаций
наиболее частотные пары слов? -- это будут

не коллокации, а free-word combinations
а что если удалить все стоп

слова?
а что если отталкиваться от частей речи (base - collocator)?

Всё нет! :(
Автоматическое выделение коллокаций наиболее частотные пары слов? -- это будут не коллокации, а free-word combinationsа что если

Слайд 25Критерии по извлечению коллокаций
коэффициент Mutual Information
коэффициент Yule

Критерии по извлечению коллокацийкоэффициент Mutual Informationкоэффициент Yule

Слайд 26Mutual Information / Взаимная информация
Представьте, что наши слова - это

передатчик и приемник, соединенные проводом, и между ними передается какая-то

информация
Mutual Information / Взаимная информацияПредставьте, что наши слова - это передатчик и приемник, соединенные проводом, и между

Слайд 27Mutual Information / Взаимная информация
Мы говорим, что коллокации - это:
последовательность

слов, частотность которой существенно выше, чем была бы в предположении

о независимости этих слов.
то есть с(x;y) >> c(x)c(y)
Mutual Information / Взаимная информацияМы говорим, что коллокации - это:	последовательность слов, частотность которой существенно выше, чем была

Слайд 28Mutual Information / Взаимная информация
Мы говорим, что коллокации - это:
последовательность

слов, частотность которой существенно выше, чем была бы в предположении

о независимости этих слов.
то есть с(x;y) >> c(x)c(y)
Тогда чтобы вычислить коллокация это или нет мы должны применить формулу взаимной информации, которая используется для любых
Mutual Information / Взаимная информацияМы говорим, что коллокации - это:	последовательность слов, частотность которой существенно выше, чем была

Слайд 29Недостатки взаимной информации

Недостатки взаимной информации

Слайд 30Автоматическое выделение коллокаций
Коэффициент Yule

Автоматическое выделение коллокацийКоэффициент Yule

Слайд 31Автоматическое выделение коллокаций
Коэффициент Yule

Автоматическое выделение коллокацийКоэффициент Yule

Слайд 32Автоматическое выделение коллокаций
Насколько они разрежены? Могут ли другие слова вставляться

между ключевыми словами в коллокации?
Разреженность разных коллокаций в рамках

одного языка может сильно отличаться
Автоматическое выделение коллокацийНасколько они разрежены? Могут ли другие слова вставляться между ключевыми словами в коллокации? Разреженность разных

Слайд 33Практика SketchEngine
https://app.sketchengine.eu/
Сначала надо зарегистрироваться

Практика SketchEnginehttps://app.sketchengine.eu/Сначала надо зарегистрироваться

Слайд 34enTenTen15 если не указано иного
Сравните коэффициент MI (взаимной информации) для

коллокации computational linguistics в обычном английском корпусе и корпусе ACL.

Соответствует ли результат вашим ожиданиям?
enTenTen15 если не указано иногоСравните коэффициент MI (взаимной информации) для коллокации computational linguistics в обычном английском корпусе

Слайд 35enTenTen15 если не указано иного
Сделайте случайную выборку из 10 предложений

со словом computational или словом linguistics на корпусе ACL и

посчитайте на ней коэффициент Yule для коллокации computational linguistics (Не обращайте внимания на заглавность букв)
Проинтерпретируйте результат. Проверьте себя.
enTenTen15 если не указано иногоСделайте случайную выборку из 10 предложений со словом computational или словом linguistics на

Слайд 36N-граммы
Более обобщенное определение коллокаций

N-граммыБолее обобщенное определение коллокаций

Слайд 37Для чего нужно определение N-граммов?
ведь это это не то же

самое, что коллокации. Мы ничего не говорим априори про частотность

последовательностей.
для задач генерации текстов
Для чего нужно определение N-граммов?ведь это это не то же самое, что коллокации. Мы ничего не говорим

Слайд 38Генерация текстов
осуществляется с помощью языковых моделей
языковые модели работают на определении

вероятности возникновения того или иного слова при каком-то условии

Генерация текстовосуществляется с помощью языковых моделейязыковые модели работают на определении вероятности возникновения того или иного слова при

Слайд 39Генерация текстов

Генерация текстов

Слайд 40Генерация текстов

Генерация текстов

Слайд 41Генерация текстов

Генерация текстов

Слайд 42Генерация текстов
По какой формуле мы вычисляем вероятность какой-то последовательности?


Допущение:

Генерация текстовПо какой формуле мы вычисляем вероятность какой-то последовательности?								Допущение:

Слайд 43Генерация текстов
То есть вместо того, чтобы считать что-то такое для

каждого последующего члена:


мы считаем что-то такое:

Генерация текстовТо есть вместо того, чтобы считать что-то такое для каждого последующего члена:мы считаем что-то такое:

Слайд 44Генерация текстов
Предположим, у нас есть корпус




Какие проблемы с таким расчетом?

Генерация текстовПредположим, у нас есть корпусКакие проблемы с таким расчетом?

Слайд 45Генерация текстов
Учитываем, что какие-то слова с большей вероятностью встречаются в

начале предложения



Всё еще чего-то не хватает!!

Генерация текстовУчитываем, что какие-то слова с большей вероятностью встречаются в начале предложенияВсё еще чего-то не хватает!!

Слайд 46Генерация текстов
Нормализация вероятностей последовательностей сейчас идет в рамках биграмов, триграмов

и т.д. отдельно.
То есть НЕ зависит от длины последовательности

Генерация текстовНормализация вероятностей последовательностей сейчас идет в рамках биграмов, триграмов и т.д. отдельно.То есть НЕ зависит от

Слайд 47Генерация текстов
Учитываем вероятность того, что после какого-то слова будет окончание

последовательности
То есть окончание коллокации/биграмма/триграмма/предложения…
Теперь “окончание предложения” - это тоже токен,

условную вероятность которого нужно вычислить
Генерация текстовУчитываем вероятность того, что после какого-то слова будет окончание последовательностиТо есть окончание коллокации/биграмма/триграмма/предложения…Теперь “окончание предложения” -

Слайд 48Генерация текстов

Генерация текстов

Слайд 49Генерация текстов

Генерация текстов

Слайд 50Генерация текстов

Генерация текстов

Слайд 51Генерация текстов

Генерация текстов

Слайд 52Генерация текстов

Генерация текстов

Слайд 53Пример
Пусть у нас есть корпус из 9222 предложений на английском

языке

ПримерПусть у нас есть корпус из 9222 предложений на английском языке

Слайд 54Пример
Известна частотность слов самих по себе - то есть частотность

униграммов



Посчитайте c помощью биграммов вероятность предложения

I want chinese food
ПримерИзвестна частотность слов самих по себе - то есть частотность униграммовПосчитайте c помощью биграммов вероятность предложения

Слайд 55Пример
Начать надо с этой таблицы

ПримерНачать надо с этой таблицы

Слайд 56Пример

Пример

Слайд 57Для чего еще могут понадобится N-граммы?
contextual spelling correction:
I think they’re

okay
I think there okay
I think their okay
выделение темы текста /

Topic modeling
машинный перевод
Для чего еще могут понадобится N-граммы?contextual spelling correction:I think they’re okayI think there okayI think their okayвыделение

Слайд 58Спасибо за внимание!

Спасибо за внимание!

Слайд 59Литература
SentencePiece paper. (2018). https://www.aclweb.org/anthology/D18-2012/

ЛитератураSentencePiece paper. (2018). https://www.aclweb.org/anthology/D18-2012/

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика