Слайд 1Лекция 4.
Экстралингвистическая разметка. Метаданные.
В.П. Захаров
Санкт-Петербургский государственный университет
Слайд 2Лекция 4
Корпусная лингвистика
Метаразметка
• Метаданные –
структурированные данные о данных:
помогают
установить порядок среди хаоса,
позволяют осуществить автоматическое обнаружение и обработку
данных.
Слайд 3Лекция 4
Корпусная лингвистика
Экстралингвистическая разметка
"внешняя", "интеллектуальная" разметка
библиографические характеристики
типологические характеристики
тематические
характеристики
социологические характеристики
………………………….
"формальная" структурная разметка
текст, раздел, глава, часть, абзац, предложение
…
технико-технологическая разметка
кодировка
даты обработки
исполнители
источник электронной версии
…………………………
Слайд 4Лекция 4
Корпусная лингвистика
"Внешняя", "интеллектуальная" разметка
Нужна:
для выявления взаимосвязи языка
и условий его существования;
для изучения отдельных подмножеств языка.
Выделяют два класса
факторов, влияющих на язык текстов:
внешние, внеязыковые факторы (E - external);
внутренние факторы (I - internal).
( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html)
Слайд 5Лекция 4
Корпусная лингвистика
"Внешняя", "интеллектуальная" разметка (продолжение)
Синклер выделяет:
три группы E-факторов:
Е1
(origin) - факторы, относящиеся к созданию текста автором;
E2 (state) -
факторы, относящиеся к внешним признакам текста (включая устную или письменную речь);
Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию.
и две группы I-факторов:
I1 (topic) - предметная область текста;
I2 (style) - стилистические особенности (стиль, жанр).
Слайд 6Лекция 4
Корпусная лингвистика
Набор метаданных в «Национальном корпусе русского языка»
Первый блок:
автор
текста: имя, пол, дата рождения (или примерный возраст);
название текста;
время и место создания текста (может указываться точно или приблизительно);
объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести – от 5 до 15 тыс. слов; обычная длина романа – более 15 тыс. слов.
Второй блок:
параметры метаописания трех основных массивов текстов корпуса:
художественных текстов;
нехудожественных текстов;
драматургии.
Слайд 7Лекция 4
Корпусная лингвистика
Художественные тексты (в НКРЯ):
жанр текста
нежанровая проза, автобиографическая
проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика,
юмор и сатира
тип текста
автобиографическая проза, анекдот, ассоциативная проза, боевик, детектив, очерк, литературное письмо, повесть, притча, пьеса, рассказ, роман, сказка, триллер, эпопея, эссе и др.;
хронотоп текста
приблизительное указание на место и время описываемых в тексте событий
Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е годы; Россия/СССР – Европа 1960-1980-е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др.
Также может быть «хронотоп не определен».
Слайд 8Лекция 4
Корпусная лингвистика
Нехудожественные тексты
(в НКРЯ):
тип текста
автобиография, акт, дневник, договор, документ,
закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор,
объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра);
тематика текста
открытый список в 5 подмножествах: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.п.
Слайд 9Лекция 4
Корпусная лингвистика
Служебная, или «имплицитная» метаразметка (в НКРЯ)
«текст-стиль», при этом
выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого
просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21);
аудитория-возраст;
аудитория-уровень образования;
аудитория-размер.
Слайд 10Лекция 4
Корпусная лингвистика
Программа метаразметки
Systemic Coder
Systemic Coder - программа,
облегчающая процесс метаописания корпуса текстов. Метаданные задаются на основе классификационной
схемы.
Программа состоит из 5 интерфейсов.
Text Segmentation: разметка границ между сегментами текста;
Scheme Management: настройка классификационной схемы;
Coding: разметка текста;
Review: просмотр размеченного текста;
Statistics: интерфейс, позволяющий получить описательную статистику о тексте, или разделить его на две или более совокупности и статистически их сравнить.
Слайд 11Лекция 4
Корпусная лингвистика
Деление текста на отдельные сегменты
Интерфейс Разметки текста.
Текст, представлен в основном диалоговом окне - текстовое окно, слева
расположен набор кнопок (панель инструментов).
Интерфейс метаразметки текста позволяет разделить загруженный текстовый файл на сегменты.
Слайд 12Лекция 4
Корпусная лингвистика
Классификационная схема
Классификация состоит из 3 частей:
имя
(system name): идентификатор схемы;
признаки (features): варианты выбора;
условия ввода (entry-condition).
Расширенная классификационная
схема:
Слайд 13Лекция 4
Корпусная лингвистика
Создание и изменение классификационной схемы
Управление классификационной схемой
Добавить
признак (Add Feature): добавление нового признака в схему.
Переименование классификационной схемы
(Rename System): изменение имени схемы.
Удаление классификации (Delete System): удаление классификации из схемы. Примечание: все признаки принадлежащие схеме и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует.
Изменение условия ввода (Change Entry Condition): изменение условия ввода классификации с одного признака на другой.
Игнорировать/Не игнорировать подсхему (Ignore/Unignore Subnet): [New] Отключение классификации. Отключенная классификация выделена серым цветом. Она будет проигнорирована в кодировке и статистическом анализе.
Управление признаками
Добавить классификацию (Add System): создание макета классификации
Переименовать признак (Rename Feature): изменение имени признака
Удалить признак (Delete Feature): удаление признака. Примечание: все признаки, принадлежащие классификации и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует
Редактирование примеров (Edit Realisations): [New] Вы можете добавить примеров, прикрепленных за признаками
Показать примеры (Show Examples): [New] Выбрав эту опцию вы перемещаетесь в интерфейс Просмотра.
Слайд 14Лекция 4
Корпусная лингвистика
Режим разметки
Слайд 15Лекция 4
Корпусная лингвистика
Интерфейс пользователя для поиска по метаданным:
Запросная форма НКРЯ
для поиска по жанру текста:
нежанровая проза
автобиографическая проза
детектив
детская литература
историческая проза
криминальная литература
приключения
фантастика
юмор
и сатира
Слайд 16Лекция 4
Корпусная лингвистика
Интерфейс пользователя для поиска по метаданным:
Запросная формы НКРЯ
для поиска по автору текста:
Автор текста
Пол:
мужской
женский
любой
Год рождения: от … до
…