Слайд 1Современная корпусная лингвистика
Тупицына Екатерина
Слайд 2План лекции
Что такое корпус? Для чего он нужен и как
он помогает лингвистам в их исследованиях? Корпус vs. электронная библиотека.
Из
истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика.
Корпусы национальных языков мира vs. специализированные корпусы.
Национальный корпус русского языка.
Владимир Плунгян, «О корпусной лингвистике».
Слайд 3http://www.gramota.ru –
справочно-информационный портал «Русский язык»
http://www.ruscorpora.ru –
Национальный корпус русского языка
Слайд 4Что такое корпус?
Corpus (на латинском ‘тело’)
В.П. Захаров, к.ф.н., доцент кафедры
математической лингвистики филологического факультета СПбГУ: лингвистический корпус – «большой, представленный
в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач».
Слайд 5Корпусы могут быть:
по языку представления текстов: одноязычные, многоязычные;
по жанровой
принадлежности: литературные, разговорные, диалектные, публицистические, смешанные;
по свободе доступа: открытые,
коммерческие, закрытые;
по динамичности: динамические (мониторные), статические и проч.;
по форме хранения: в звуковой форме, письменные, смешанные;
по назначению: исследовательские, иллюстративные;
по наличию дополнительной информации: аннотированные (размеченные), неразмеченные.
Слайд 6Корпус vs. электронная библиотека
Слайд 7Библиотека Максима Мошкова (http://www.lib.ru/);
Фундаментальная электронная библиотека (http://feb-web.ru/);
Русская виртуальная библиотека (http://www.rvb.ru/);
Библиотека
Алексея Комарова (http://ilibrary.ru/).
Слайд 8Для чего нужен корпус и как он помогает лингвистам в
исследованиях?
машинный перевод (http://translate.google.ru);
сбор лингвистической информации по заданным параметрам – лексическим
и грамматическим;
лексикография (частотные словари, семантическая деривация, неологизмы);
семантика (семантические категории слов);
диахронная лингвистика (исторические исследования);
лингвистическая обработка больших массивов текстов;
системы автоматической обработки текста.
Слайд 9Объем выборки – 504 лексемы.
В среднем у каждого глагола обнаруживаются
2-3 значения, в которых реализована сема ‘говорение’: 504 х 2
= 1008 ЛСВ со значением речи.
ВОРЧАТЬ, -чу, -чишь; нсв. 1. (на кого-что). Сердито бормотать, выражая неудовольствие, раздражение (обычно в адрес кого-, чего-л.); брюзжать. И Василиса, второй раз согревавшая девочкам обед, переставала ворчать. (Людмила Улицкая. Казус Кукоцкого (Путешествие в седьмую сторону света) // «Новый Мир», 2000); Он позвонил ещё раз и ещё раз и начал ворчать и тихонько ругаться. (М. А. Булгаков. Мастер и Маргарита, часть 1 (1929-1940)) 2. Издавать негромкие урчащие звуки, выражая недовольство, угрозу, злобу и т.п. (о животных) (БТС)
ГОРЛАНИТЬ, -ню, -нишь; нсв. что и без дополн. Разг.-сниж. Говорить, кричать или петь слишком громко, во всё горло (БТС). Россия, конечно же, великая страна, но надо все-таки совесть иметь и не горланить согласно грубой пословице: «Нажрался, как дурак на поминках». (Евгений Попов. Подлинная история «Зеленых музыкантов» (1997)); И пешеходы выпрыгивали из-под нашей машины, как куры, и мы мчались с неслыханной быстротой, и мне было очень весело, и на душе было свободно, и очень хотелось горланить что-нибудь отчаянное. (Виктор Драгунский. Денискины рассказы/ На Садовой большое движение (1963))
Слайд 10Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика
Корпусная
лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения
и использования лингвистических корпусов с использованием компьютерных технологий.
Два аспекта:
создание и разметка (аннотирование) корпусов текстов, разработка средств поиска по ним;
собственно лингвистический – экспериментальные исследования на базе корпусов.
Слайд 11История и современность
конец XIX – начало XX в. – создание
частотных словарей
60-х гг. ХХ в. – первые корпусы текстов (прообразом
служат словарные картотеки)
1963 г. – Брауновский корпус (Brown Corpus)
появление периодических изданий, посвященных проблемам корпусной лингвистики: International Journal of Corpus Linguistics, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal
2001 г. – начало работ по созданию Национального корпуса русского языка
Слайд 12Традиционная лингвистика vs. корпусная лингвистика
Слайд 13Но что же именно изучает лингвистика – язык или речь?
Слайд 14 «Corpus linguistics doesn’t mean anything. It’s like saying suppose
physics and chemistry decide that instead of relying on experiments,
what they’re going to do is [to] take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights. Well, you know, sciences don’t do this».
N. Chomsky [Andor, J.: 2004, ‘The master and his performance: An interview with Noam Chomsky’,Intercultural Pragmatics, 1:1, 93-111]
Слайд 15 «Корпусная лингвистика ничего не значит. Это все равно, что сказать
допустим, что физики и химики, вместо того, чтобы полагаться
на эксперименты, начнут записывать на видео все, что происходит в мире, соберут большую коллекцию того, что происходит, и на основе этого может быть придут к каким-то обобщениям или озарениям. Вы же знаете, что в науке так не принято»
N. Chomsky [Andor, J.: 2004, ‘The master and his performance: An interview with Noam Chomsky’,Intercultural Pragmatics, 1:1, 93-111]
Слайд 16Корпусы национальных языков мира vs. специализированные корпусы
http://www.ruscorpora.ru – Национальный корпус
русского языка;
http://opencorpora.org/ – Открытый корпус русского языка;
http://www.narusco.ru/ – Корпус русского
литературного языка;
http://nkjp.pl/ – Национальный корпус польского языка;
http://korpus.cz/ – Национальный корпус чешского языка;
http://www.natcorp.ox.ac.uk/ – Британский национальный корпус;
http://www.ge.ilc.cnr.it/strumenti.php – Национальный корпус итальянского языка;
http://cblle.tufs.ac.jp/llc/ja/search.php?menulang=en – Обучающий корпус японского языка
и др.
Слайд 17http://foni.uio.no:3000/users/sign_in – корпус древних переводов Нового завета университета Осло;
http://www.childes.psy.cmu.edu –
корпус детской речи;
http://www.statmt.org/europarl/ – корпус слушаний Европарламента;
https://ec.europa.eu/jrc/en/institutes/ipsc/?id=198 – корпус документов
Евросоюза (более 20 языков);
и др.
Слайд 18Национальный корпус русского языка
объем – более 500 млн. слов;
метаразметка и морфологическая
разметка;
13 корпусов текстов;
возможность задать подкорпус;
графики частотности словоформ;
тексты XVIII – XIX
веков + исторический корпус.
Слайд 19Национальный корпус русского языка
1. Поиск по корпусу (основной, газетный, синтаксический…).
2.
Выбор подкорпуса (автор, дата создания текста, жанр…).
3. Графики частотности.
Слайд 20Владимир Плунгян, «О корпусной лингвистике»
Слайд 21Домашнее задание от Т.И. (до 10.11):
Выберите два любых полисеманта, у
которых не менее 3 значений. Найти примеры употребления каждого ЛСВ
слова.
Матлингвисты – художественные тексты второй половины XX века,
востоковеды – публицистические тексты XXI века,
филологи – художественные тексты XIX века.
2. Выберите два любых слова и проследите частотность их употребления в текстах с 1800 по 2010 год.
С чем может быть связано такое строение графика частотности?
Какие экстралингвистические факторы, по вашему мнению, повлияли на такое словоупотребление?
! Задание оформить на двух страницах А4 следующим образом (подписать ФИО и группу!):
шрифт – Times New Roman, размер шрифта – 12, выравнивание по ширине, отступ слева и справа – 0 см, интервал перед и после – 0 пт, первая строка – отступ 1,25 см, междустрочный интервал – множитель 1,15.