Слайд 1Лингвистика для математиков
POS-tagging
Слайд 2План на сегодня
Автоматическое выделение частей речи
Пробный тест по фану без
оценок
Слайд 5Части речи
Как определить часть речи?
Слайд 6Части речи
Открытые и закрытые
Что это значит?
Глокая куздра штеко будланула
бокра и кудрячит бокрёнка
Слайд 7Части речи
Из Алисы в стране чудес
Lewis Carroll
Слайд 9Части речи в разных языках
Вспомним задачу про индонезийский
Части речи в
русском
Слайд 11Автоматический морфологический анализ
Как автоматически отличить “book that flight” от “hand
me this book”?
Нужно провести морфологический анализ
Слайд 12The Penn Treebank tagset
Университет Пенсильвании. Использовался для ручной разметки корпуса
для текстов.
Слайд 14Universal dependencies
Этот набор тегов используется в большинстве современных корпусов
Используется для
большого количества языков
Можно сравнивать разные языки и делать разборы более
однообразными
+ синтаксический парсинг
Слайд 15Точность
базовый алгоритм: если слово неоднозначно, присваиваем ему ту часть речи,
которая чаще всего встречается в корпусе (для этого слова)
--- 90% точность
более сложные алгоритмы (скрытые марковские модели, машинное обучение и т.д.) --- 97% точность
человек --- 98% точность
Слайд 16Какими методами мы можем воспользоваться?
на основе сета правил
стохастические (с помощью
машинного обучения, с помощью марковских моделей)
Слайд 17Первый метод: сверяемся с таблицей
Слайд 18Первый метод: сверяемся с таблицей
Слайд 20Второй метод: n-граммы
Jane will spot Mary --- эта пара (биграмм)
не встретится в таблице. Как мы тогда присвоим ему частотность/вероятность?
Слайд 21Скрытые марковские модели
Будущее зависит от прошлого только через настоящее
Это называется
марковской цепью
Слайд 22Скрытые марковские модели
Сначала классический пример про погоду и настроение
https://www.youtube.com/watch?v=kqSzLo9fenk
до 11
минуты
Слайд 23Скрытые марковские модели
Нам нужна последовательность наблюдений. Событий и каких-то зависимых
от них событий
Два типа вероятностей:
вероятность перехода из одного состояния в
другое
вероятность того, что при условии, что есть одно состояние, то ему соответствует какое-то событие
Слайд 24Наша первая марковская модель
Как это соотноситься с языком?
Слайд 25Применения скрытых марковских моделей
Слайд 33Скрытые марковские модели
https://www.youtube.com/watch?v=ZDXlExZlVMs&list=PLC0PzjY99Q_U5bba7gYJicCxIufrFmlTa&index=7
Слайд 34Скрытые марковские модели
Задача:
У нас есть 3 части речи: modal verb,
verb, noun. Сколько возможных цепочек частей речи нужно проверить скрытой
марковской модели для выбора наиболее вероятной для предложения
Jane will spot Will
Слайд 37Скрытые марковские модели
Сколько путей нам нужно проверить теперь?
Что мы удалили?
Слайд 38Скрытые марковские модели
Ответ: 4
Слайд 41Алгоритм Витерби
https://www.youtube.com/watch?v=mHEKZ8jv2SY&list=PLC0PzjY99Q_U5bba7gYJicCxIufrFmlTa&index=13
Слайд 42Задача на марковские процессы
В процессе опроса владельцев автомобилей трех американских
марок: марки A, марки B, марки C, им был задан
вопрос о том, какую торговую марку они бы выбрали для следующей покупки.
Среди владельцев автомобилей марки A 20% сказали что выберут опять эту же марку, 50% сказали, что они бы перешли на марку B%, а 30% заявили, что предпочли бы марку C.
Среди владельцев автомобилей марки B 20% сказали, что перейдут на марку A, в то время как 70% заявили, что приобрели бы опять автомобиль марки B, а 10% заявили, что в следующий раз предпочли бы марку C.
Среди владельцев автомобилей C 30% ответили, что перешли бы на марку A, 30% сказали, что перешли бы на марку B, а 40% заявили, что остались бы верны той же марке C.
Слайд 43Задача на марковские процессы
Вопрос 1 : Если некто приобрел автомобиль
марки A, то какова вероятность, что его второй машиной будет
автомобиль марки C?
Слайд 44Некоторый fun
Задача:
Даны фразы из биографии французской актрисы Эммануэль Беар, приведённой
на сайте «Каталог биографий известных актёров».
Слайд 45Некоторый fun
1. Режиссерам привзглянулась нежная красота Беар, и без ролей
она не сидела.
2. Но «своего» режиссера Эммануэль порадостнилось встретить лишь
в 1992 году.
3. Обрелась невероятно тонкая и красивая картина (не в последнюю очередность благодаря Беар), которая обрела «Сезара» как оптимальный кинофильм того года.
4. Она нанастолькоко ладно сыграла метания героини между двумя супругчинами, что Даниэль Отёй, который был супругом Беар в кинофильме и в жизни, выбирал не приезжать на съемки, когда там снимались сцены с любовником героини Эммануэль.
Слайд 46Некоторый fun
5. Своих детей и свою личную жизнь артистка ревностно
оберегает от внимания газетчиков, но папарацци очень любят Беар, видимо,
позжеу что она очень фотогенична.
6. Много лет Эммануэль Беар была «лицом» известной фирмы «Christian Dior», но не так давно ее на этом посту поменяла российская манекенщица Крправда Семеновская.
Задание 1. Отметьте слова, которые вам показались странными.
Задание 2. Объясните их появление в этом тексте.
Слайд 49Некоторый fun
Подумайте, как NLP помогает отсеивать такие сайты?
Как вы думаете
насколько давно придумали эту задачу?
Слайд 50Задача на языковые модели
Попробуйте описать образование глагольных основ в языке
йоулумни (индейский язык где-то в Северной Америке). Запишите регулярками 3
основы