Разделы презентаций


Современная корпусная лингвистика

Содержание

План лекцииЧто такое корпус? Для чего он нужен и как он помогает лингвистам в их исследованиях? Корпус vs. электронная библиотека.Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика.Корпусы национальных языков

Слайды и текст этой презентации

Слайд 1Современная корпусная лингвистика
Тупицына Екатерина

Современная корпусная лингвистикаТупицына Екатерина

Слайд 2План лекции
Что такое корпус? Для чего он нужен и как

он помогает лингвистам в их исследованиях? Корпус vs. электронная библиотека.
Из

истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика.
Корпусы национальных языков мира vs. специализированные корпусы.
Национальный корпус русского языка.
Владимир Плунгян, «О корпусной лингвистике».

План лекцииЧто такое корпус? Для чего он нужен и как он помогает лингвистам в их исследованиях? Корпус

Слайд 3http://www.gramota.ru –
справочно-информационный портал «Русский язык»

http://www.ruscorpora.ru –
Национальный корпус русского языка

http://www.gramota.ru – справочно-информационный портал «Русский язык»http://www.ruscorpora.ru –Национальный корпус русского языка

Слайд 4Что такое корпус?
Corpus (на латинском ‘тело’)






В.П. Захаров, к.ф.н., доцент кафедры

математической лингвистики филологического факультета СПбГУ: лингвистический корпус – «большой, представленный

в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач».

Что такое корпус?Corpus (на латинском ‘тело’)В.П. Захаров, к.ф.н., доцент кафедры математической лингвистики филологического факультета СПбГУ: лингвистический корпус

Слайд 5Корпусы могут быть:
по языку представления текстов: одноязычные, многоязычные;
по жанровой

принадлежности: литературные, разговорные, диалектные, публицистические, смешанные;
по свободе доступа: открытые,

коммерческие, закрытые;
по динамичности: динамические (мониторные), статические и проч.;
по форме хранения: в звуковой форме, письменные, смешанные;
по назначению: исследовательские, иллюстративные;
по наличию дополнительной информации: аннотированные (размеченные), неразмеченные.

Корпусы могут быть:по языку представления текстов: одноязычные, многоязычные; по жанровой принадлежности: литературные, разговорные, диалектные, публицистические, смешанные; по

Слайд 6Корпус vs. электронная библиотека

Корпус vs. электронная библиотека

Слайд 7Библиотека Максима Мошкова (http://www.lib.ru/);
Фундаментальная электронная библиотека (http://feb-web.ru/);
Русская виртуальная библиотека (http://www.rvb.ru/);
Библиотека

Алексея Комарова (http://ilibrary.ru/).

Библиотека Максима Мошкова (http://www.lib.ru/);Фундаментальная электронная библиотека (http://feb-web.ru/);Русская виртуальная библиотека (http://www.rvb.ru/);Библиотека Алексея Комарова (http://ilibrary.ru/).

Слайд 8Для чего нужен корпус и как он помогает лингвистам в

исследованиях?
машинный перевод (http://translate.google.ru);
сбор лингвистической информации по заданным параметрам – лексическим

и грамматическим;
лексикография (частотные словари, семантическая деривация, неологизмы);
семантика (семантические категории слов);
диахронная лингвистика (исторические исследования);
лингвистическая обработка больших массивов текстов;
системы автоматической обработки текста.

Для чего нужен корпус и как он помогает лингвистам в исследованиях?машинный перевод (http://translate.google.ru);сбор лингвистической информации по заданным

Слайд 9Объем выборки – 504 лексемы.
В среднем у каждого глагола обнаруживаются

2-3 значения, в которых реализована сема ‘говорение’: 504 х 2

= 1008 ЛСВ со значением речи.
ВОРЧАТЬ, -чу, -чишь; нсв. 1. (на кого-что). Сердито бормотать, выражая неудовольствие, раздражение (обычно в адрес кого-, чего-л.); брюзжать. И Василиса, второй раз согревавшая девочкам обед, переставала ворчать. (Людмила Улицкая. Казус Кукоцкого (Путешествие в седьмую сторону света) // «Новый Мир», 2000); Он позвонил ещё раз и ещё раз и начал ворчать и тихонько ругаться. (М. А. Булгаков. Мастер и Маргарита, часть 1 (1929-1940)) 2. Издавать негромкие урчащие звуки, выражая недовольство, угрозу, злобу и т.п. (о животных) (БТС)
ГОРЛАНИТЬ, -ню, -нишь; нсв. что и без дополн. Разг.-сниж. Говорить, кричать или петь слишком громко, во всё горло (БТС). Россия, конечно же, великая страна, но надо все-таки совесть иметь и не горланить согласно грубой пословице: «Нажрался, как дурак на поминках». (Евгений Попов. Подлинная история «Зеленых музыкантов» (1997)); И пешеходы выпрыгивали из-под нашей машины, как куры, и мы мчались с неслыханной быстротой, и мне было очень весело, и на душе было свободно, и очень хотелось горланить что-нибудь отчаянное. (Виктор Драгунский. Денискины рассказы/ На Садовой большое движение (1963))


Объем выборки – 504 лексемы.В среднем у каждого глагола обнаруживаются 2-3 значения, в которых реализована сема ‘говорение’:

Слайд 10Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика
Корпусная

лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения

и использования лингвистических корпусов с использованием компьютерных технологий.
Два аспекта:
создание и разметка (аннотирование) корпусов текстов, разработка средств поиска по ним;
собственно лингвистический – экспериментальные исследования на базе корпусов.
Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся

Слайд 11История и современность
конец XIX – начало XX в. – создание

частотных словарей
60-х гг. ХХ в. – первые корпусы текстов (прообразом

служат словарные картотеки)
1963 г. – Брауновский корпус (Brown Corpus)
появление периодических изданий, посвященных проблемам корпусной лингвистики: International Journal of Corpus Linguistics, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal
2001 г. – начало работ по созданию Национального корпуса русского языка
История и современностьконец XIX – начало XX в. – создание частотных словарей60-х гг. ХХ в. – первые

Слайд 12Традиционная лингвистика vs. корпусная лингвистика

Традиционная лингвистика vs. корпусная лингвистика

Слайд 13Но что же именно изучает лингвистика – язык или речь?

Но что же именно изучает лингвистика – язык или речь?

Слайд 14 «Corpus linguistics doesn’t mean anything. It’s like saying suppose

physics and chemistry decide that instead of relying on experiments,

what they’re going to do is [to] take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights. Well, you know, sciences don’t do this».

N. Chomsky [Andor, J.: 2004, ‘The master and his performance: An interview with Noam Chomsky’,Intercultural Pragmatics, 1:1, 93-111]
«Corpus linguistics doesn’t mean anything. It’s like saying suppose physics and chemistry decide that instead of relying

Слайд 15 «Корпусная лингвистика ничего не значит. Это все равно, что сказать

допустим, что физики и химики, вместо того, чтобы полагаться

на эксперименты, начнут записывать на видео все, что происходит в мире, соберут большую коллекцию того, что происходит, и на основе этого может быть придут к каким-то обобщениям или озарениям. Вы же знаете, что в науке так не принято» 
N. Chomsky [Andor, J.: 2004, ‘The master and his performance: An interview with Noam Chomsky’,Intercultural Pragmatics, 1:1, 93-111]
«Корпусная лингвистика ничего не значит. Это все равно, что сказать допустим, что физики и химики, вместо того,

Слайд 16Корпусы национальных языков мира vs. специализированные корпусы
http://www.ruscorpora.ru – Национальный корпус

русского языка;
http://opencorpora.org/ – Открытый корпус русского языка;
http://www.narusco.ru/ – Корпус русского

литературного языка;
http://nkjp.pl/ – Национальный корпус польского языка;
http://korpus.cz/ – Национальный корпус чешского языка;
http://www.natcorp.ox.ac.uk/ – Британский национальный корпус;
http://www.ge.ilc.cnr.it/strumenti.php – Национальный корпус итальянского языка;
http://cblle.tufs.ac.jp/llc/ja/search.php?menulang=en – Обучающий корпус японского языка
и др.
Корпусы национальных языков мира vs. специализированные корпусы  http://www.ruscorpora.ru – Национальный корпус русского языка;http://opencorpora.org/ – Открытый корпус

Слайд 17http://foni.uio.no:3000/users/sign_in – корпус древних переводов Нового завета университета Осло;
http://www.childes.psy.cmu.edu –

корпус детской речи;
http://www.statmt.org/europarl/ – корпус слушаний Европарламента;
https://ec.europa.eu/jrc/en/institutes/ipsc/?id=198 – корпус документов

Евросоюза (более 20 языков);
и др.
http://foni.uio.no:3000/users/sign_in – корпус древних переводов Нового завета университета Осло;http://www.childes.psy.cmu.edu – корпус детской речи;http://www.statmt.org/europarl/ – корпус слушаний Европарламента;https://ec.europa.eu/jrc/en/institutes/ipsc/?id=198

Слайд 18Национальный корпус русского языка
объем – более 500 млн. слов;
метаразметка и морфологическая

разметка;
13 корпусов текстов;
возможность задать подкорпус;
графики частотности словоформ;
тексты XVIII – XIX

веков + исторический корпус.

Национальный корпус русского языка объем – более 500 млн. слов;метаразметка и морфологическая разметка;13 корпусов текстов;возможность задать подкорпус;графики частотности

Слайд 19Национальный корпус русского языка
1. Поиск по корпусу (основной, газетный, синтаксический…).
2.

Выбор подкорпуса (автор, дата создания текста, жанр…).
3. Графики частотности.

Национальный корпус русского языка1. Поиск по корпусу (основной, газетный, синтаксический…).2. Выбор подкорпуса (автор, дата создания текста, жанр…).3.

Слайд 20Владимир Плунгян, «О корпусной лингвистике»

Владимир Плунгян, «О корпусной лингвистике»

Слайд 21Домашнее задание от Т.И. (до 10.11):
Выберите два любых полисеманта, у

которых не менее 3 значений. Найти примеры употребления каждого ЛСВ

слова.
Матлингвисты – художественные тексты второй половины XX века,
востоковеды – публицистические тексты XXI века,
филологи – художественные тексты XIX века.
2. Выберите два любых слова и проследите частотность их употребления в текстах с 1800 по 2010 год.
С чем может быть связано такое строение графика частотности?
Какие экстралингвистические факторы, по вашему мнению, повлияли на такое словоупотребление?
! Задание оформить на двух страницах А4 следующим образом (подписать ФИО и группу!):
шрифт – Times New Roman, размер шрифта – 12, выравнивание по ширине, отступ слева и справа – 0 см, интервал перед и после – 0 пт, первая строка – отступ 1,25 см, междустрочный интервал – множитель 1,15.

Домашнее задание от Т.И. (до 10.11):Выберите два любых полисеманта, у которых не менее 3 значений. Найти примеры

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика