Разделы презентаций


Между языком и компьютером

Содержание

Что такое корпус?* Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. [НКРЯ] ? Сorpus

Слайды и текст этой презентации

Слайд 1Между языком и компьютером
Малый филологический факультет
17.10.2019

Между языком и компьютеромМалый филологический факультет17.10.2019

Слайд 2Что такое корпус?
* Национальный корпус представляет данный язык на определенном

этапе (или этапах) его существования и во всём многообразии жанров,

стилей, территориальных и социальных вариантов и т. п. [НКРЯ]

? Сorpus - Corpora

Корпус - Кóрпусы / корпусá

информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме

Что такое корпус?* Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во

Слайд 3А Зачем?..

А Зачем?..

Слайд 4Ключевые слова

Ключевые слова

Слайд 5Выражения для поиска (главным образом для нкря)

Выражения для поиска (главным образом для нкря)

Слайд 6Какие бывают корпуса?
письменный
устный
параллельный
детской речи
корпус ошибок
медиакорпус
литературоведческие
обучающий
РАЗНЫЕ!

Какие бывают корпуса?письменныйустныйпараллельныйдетской речикорпус ошибокмедиакорпуслитературоведческиеобучающийРАЗНЫЕ!

Слайд 7НКРЯ
ruscorpora.ru/old

НКРЯruscorpora.ru/old

Слайд 8НКРЯ
ruscorpora.ru/old

НКРЯruscorpora.ru/old

Слайд 9Český národní korpus
www.korpus.cz
Параметры доступа: свободный, но с регистрацией больше

возможностей

1994 – создание Института Чешского национального корпуса при Факультете философии

Карлова университета
Český národní korpus www.korpus.czПараметры доступа: свободный, но с регистрацией больше возможностей1994 – создание Института Чешского национального корпуса

Слайд 10Описание корпуса

Описание корпуса

Слайд 11Тексты
Временной диапазон
для диахронического

ТекстыВременной диапазондля диахронического

Слайд 12Тексты
для синхронического

Текстыдля синхронического

Слайд 13Возможности интерфейса
User-friendly
Лемматизация
Удобный вывод информации о частоте (в т.ч. в

диахронии), употребляемости в текстах разных жанров
Автоматическое создание wordcloud с

словоформами


Коллокации
Отслеживание социологических факторов (гендер, образование, возраст)
Географическое распределение употребления слова
Примеры употребления в живой речи

WORD AT GLANCE

https://www.korpus.cz/slovo-v-kostce/

Возможности интерфейсаUser-friendlyЛемматизация Удобный вывод информации о частоте (в т.ч. в диахронии), употребляемости в текстах разных жанров Автоматическое

Слайд 14Диахронический корпус: Исследование
правописание предлогов с числительными
вариативное
слитное/раздельное
слитное vs. раздельное
(разные значения)
только раздельное

Диахронический корпус: Исследованиеправописание предлогов с числительнымивариативное слитное/раздельноеслитное vs. раздельное(разные значения)только раздельное

Слайд 15Тенденция к слитному или раздельному написанию?

Тенденция к слитному или раздельному написанию?

Слайд 16CLiC – Dickens
Корпусные методы как новые инструменты изучения литературы и

читательского восприятия текста.
CLiC Dickens является результатом сотрудничества University of Nottingham

(2013) и University of Birmingham.
Более 130 книг.
Доступные корпуса: Dickens’s Novels (DNov), 19th Century Reference Corpus (19C), 19th Century Children’s Literature (ChiLit), Additional Requested Texts (ArTs).

https://clic.bham.ac.uk/

(Corpus Linguistics in Context)

CLiC –  DickensКорпусные методы как новые инструменты изучения литературы и читательского восприятия текста.CLiC Dickens является результатом

Слайд 17Гикря webcorpora.ru
19801 млн слов,
279903439 документов
Закрытый доступ
Социолингвистические

данные
LiveJournal, Вконтакте


Гикря    webcorpora.ru19801 млн слов, 279903439 документовЗакрытый доступСоциолингвистические данныеLiveJournal, Вконтакте

Слайд 18Dracor shiny.dracor.org
НИУ ВШЭ и Потсдамский университет
Корпус драматических

текстов RusDraCor (80 пьес), GerDraCor (465 пьесы)
Периодизация: середина XVIII –

первая половина XX века
Wikisource (wikisource.org), the Русская виртуальная библиотека (rvb.ru), Интернет-библиотека Алексея Комарова (ilibrary.ru) and Библиотека Максима Мошкова (lib.ru)
Dracor    shiny.dracor.orgНИУ ВШЭ и Потсдамский университетКорпус драматических текстов RusDraCor (80 пьес), GerDraCor (465 пьесы)Периодизация:

Слайд 19Все Связано: Сети социальных взаимодействий
Количественные и структурные исследования русской драмы:

определяем «влиятельность» литературного героя и не только
Определение социальной сети: кто

с кем разговаривает? В каждом акте, сцене и т.д.
Анализ связей между действующими лицами (акторами) с помощью графа
Все Связано: Сети социальных взаимодействийКоличественные и структурные исследования русской драмы: определяем «влиятельность» литературного героя и не толькоОпределение

Слайд 20Граф, его вершины и ребра
Граф – способ формально описать взаимосвязи

между набором элементов (вершин)
Два основных понятия: вершины (узлы, vertices, nodes)

и связи (дуги, ребра, links, edges)
Ребро (edge) – связь между элементами, представляется как пара вершин (начало-конец)
Ориентированный граф – несимметричная связь, направление важно
Неориентированный граф – симметричная связь (*A* и *B* связаны)
Граф, его вершины и ребраГраф – способ формально описать взаимосвязи между набором элементов (вершин)Два основных понятия: вершины

Слайд 21Меры центральности
Степень (Degree) показывает количество связей у вершины.
Взвешенная степень

(Weighted degree, strength) учитывает количество взаимодействий между двумя персонажами. 
Степень близости

(Closeness centrality) – вершины с наиболее короткими путями до остальных
Степень посредничества (Betweenness centrality) – важны вершины, которые являются посредниками между группами, находятся на "выгодном" месте
Степень влиятельности (Eigenvector centrality) учитывает влиятельность персонажей, с которыми взаимодействует данный персонаж (главные/второстепенные)

Подробнее тут:
https://sysblok.ru/philology/socseti-russkoj-dramy-chast-i-osnovy-setevogo-analiza/

Меры центральностиСтепень (Degree) показывает количество связей у вершины. Взвешенная степень (Weighted degree, strength) учитывает количество взаимодействий между

Слайд 22Между языком и компьютером
Малый филологический факультет
семинар

Между языком и компьютеромМалый филологический факультетсеминар

Слайд 23Машинное обучение: автоматический перевод

Машинное обучение: автоматический перевод

Слайд 24Параллельный корпус/ переводоведческие корпуса
Конкордансеры (Concordancers) – списки контекстов
Computer-assisted translation (CAT)

– «память/накопитель переводов» (Translation Memory databases)
Электронные словари

Параллельный корпус/ переводоведческие корпусаКонкордансеры (Concordancers) – списки контекстов Computer-assisted translation (CAT) – «память/накопитель переводов» (Translation Memory databases)Электронные

Слайд 25Чат-боты (Виртуальные собеседники)

Чат-боты  (Виртуальные собеседники)

Слайд 26Первый чат-бот Элиза
Элиза (ELIZA) — виртуальный собеседник, знаменитая компьютерная программа

Джозефа Вейценбаума, написанная им в 1966 году, которая пародирует диалог

с психотерапевтом, реализуя технику активного слушания [Wiki]
Первый чат-бот ЭлизаЭлиза (ELIZA) — виртуальный собеседник, знаменитая компьютерная программа Джозефа Вейценбаума, написанная им в 1966 году,

Слайд 27Алиса от

Алиса от

Слайд 28Azuma Hikari

Azuma Hikari

Слайд 29Один речевой день (ОРД)
Цель – получить записи русской спонтанной речи

в естественных условиях
Практическая утопия: «создать такую модель устной речи, которая

позволила бы общаться с компьютером на понятном машине языке»

Наталья Богданова-Бегларян и Татьяна Шерстинова за расшифровкой
(https://www.goethe.de/ins/ru/ru/kul/mag/20658542.html)

Один речевой день (ОРД)Цель – получить записи русской спонтанной речи в естественных условияхПрактическая утопия: «создать такую модель

Слайд 30128 информантов мужчины и женщины (возраст 17 - 80) + более 1000

собеседников (возраст 3 - 85)
(более 1400 часов звучания)

[Шерстинова 2018]

128 информантов  мужчины и женщины (возраст 17 - 80) + более 1000 собеседников  (возраст 3

Слайд 31 динамика эпизодов речевого дня
[Шерстинова 2018]
[Шерстинова 2008]

динамика эпизодов речевого дня [Шерстинова 2018][Шерстинова 2008]

Слайд 32Обработка записи
О начальных этапах проекта: http://www.dialog-21.ru/digests/dialog2008/materials/html/76.htm

Обработка записиО начальных этапах проекта: http://www.dialog-21.ru/digests/dialog2008/materials/html/76.htm

Слайд 33Устные корпуса
http://spokencorpora.ru/
Рассказы о сновидениях
Корпус состоит из 129 рассказов детей и

подростков от 7 до 17 лет об увиденном ими во

сне. Рассказы записывались непосредственно после пробуждения. Общая длительность звучания — около 2 часов; объем корпуса — около 14 тысяч словоупотреблений.
Рассказы разбиты на две группы: 60 рассказов взяты от детей и подростков из контрольной группы, 69 рассказов — от участников эксперимента с теми или иными невротическими расстройствами.

Джон Анстер Фицжеральд «Сновидения»

Устные корпусаhttp://spokencorpora.ru/Рассказы о сновиденияхКорпус состоит из 129 рассказов детей и подростков от 7 до 17 лет об

Слайд 34ЗАДАНИЕ
Составьте рассказ по картинке
Есть такой корпус! 

ЗАДАНИЕСоставьте рассказ по картинкеЕсть такой корпус! 

Слайд 35Медиакорпуса
Например, в НКРЯ:
http://www.ruscorpora.ru/new/search-murco.html

МедиакорпусаНапример, в НКРЯ:  http://www.ruscorpora.ru/new/search-murco.html

Слайд 36Корпуса детской речи
Например, детская речь на русском языке в CHILDES:
https://childes.talkbank.org/browser/index.php?url=Slavic/Russian/Protassova/

Корпуса детской речиНапример, детская речь на русском языке в CHILDES:https://childes.talkbank.org/browser/index.php?url=Slavic/Russian/Protassova/

Слайд 37задание
Даны пары синонимов. Выберите наиболее привлекательную для вас пару и

проведите маленькое корпусное исследование.
Найдите примеры:
контекстов, в которых эти слова

работают как синонимы;
контекстов , в которых они не взаимозаменяемы.

находиться

располагаться

3

худой

стройный

6

родина

отчизна

8

судьба

участь

5

очень

весьма

7

прыткий

юркий

4

легко

просто

1

грустный

печальный

2

заданиеДаны пары синонимов. Выберите наиболее привлекательную для вас пару и проведите маленькое корпусное исследование. Найдите примеры:контекстов, в

Слайд 38Спасибо!

Спасибо!

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика