Слайд 1Белоусов К.И., проф. кафедры теоретического и прикладного языкознания
Perm State University
АНАЛИЗ
ЯЗЫКОВЫХ ДАННЫХ В ИНФОРМАЦИОННОЙ СИСТЕМЕ СЕМОГРАФ
Слайд 3Perm State University
Информационная система Семограф
Семограф является свободно распространяемой многопользовательской информационной
системой с веб-интерфейсом, предназначенной для анализа языкового материала
URL: https://semograph.org
Слайд 4Perm State University
Общие принципы
Распределенный в режиме реального времени научный процесс
Организация
сетевого взаимодействия участников
Система управления исследовательской деятельностью
Единые технологии обработки информации и
общей базы данных
Интеграция результатов исследовательской работы каждого участника в единое информационное пространство
Слайд 5Perm State University
Цели информационной системы Семограф
Основная цель – создание доступных
и понятных широкому кругу лингвистов технологий и созданных на их
основе программных средств, помогающих лингвистам решать собственно научные задачи, поставленные в каждом отдельном исследовании.
Задачи ИС «Семограф»:
Анализ текстового материала
Сознание и разметка корпусов
Проведение лингвистических экспериментов и анализ полученных данных
Классификация данных
Построение моделей и др.
Слайд 7Perm State University
Стартовая страница ИС «Семограф»
Стартовая страница: http://semograph.org
Для работы в
ИС «Семограф» требуется браузер Google Chrome или Mozilla Firefox
Слайд 8Регистрация в ИС «Семограф»
Зарегистрируйтесь в системе https://semograph.org/
После регистрации нужно дождаться
письма и перейти по ссылке.
Обратите внимание! Для авторизации кроме логина
и пароля требуется идентификация с помощью captcha Я не робот.
Можно войти в систему через свои аккаунты в социальных сетях ВКонтакте или Фейсбук, используя иконки входа:
Слайд 10Perm State University
Создание таблицы с данными
Данные в ИС «Семограф» можно
вносить несколькими способами, из которых рассмотрим импорт данных из файла.
Для
того чтобы создать файл для загрузки необходимо сделать google-таблицу (см. рисунок 1 на слайде 12).
Первые три столбца данной таблицы должны иметь названия context.text, components, context.name. Другие столбцы могут иметь любые неповторяющиеся наименования (например, пол, возраст, город и т.п.).
Под названиями столбцов должны находиться из описания. Для первых трех столбцов: context.text – types, components – пустая ячейка, context.name – string (см. рисунок 1 на слайде 12).
Слайд 11Perm State University
Создание таблицы с данными
Остальные типы данных могут быть
строковыми (string), целочисленными (int), дробными (float).
Если Вы не знаете, какой
тип выбрать для создания таблицы, выбирайте string.
Примеры организации данных можно посмотреть по ссылке:
https://docs.google.com/spreadsheets/d/1m5vgSWnLZdFmaTzUsVMatKdoT0A9akpHX3YmTIhK_mo/edit#gid=2079782101
Слайд 12Perm State University
Подготовка файла для загрузки
Рисунок 1. Фрагмент файла для
загрузки в ИС «Семограф»
Слайд 13Perm State University
Создание загрузочного файла
Загрузочный файл создается из гугл-таблицы: Файл
– Скачать как – CSV-файл (текущий лист)
Слайд 14Perm State University
Импорт загрузочного csv-файла в ИС «Семограф»
Для импорта подготовленного
csv-файла необходимо:
зарегистрироваться в системе,
войти в систему под своим логином.
После входа
осуществляется переход к рабочему столу системы: Админ-панель – Проекты – Импорт файла (подробнее см. следующие слайды).
Слайд 15Рабочий стол системы
Рабочий стол системы существует в двух вариантах: "Админ-панели"
(Рис. 1) и "Рабочего стола" (Рис. 2).
Переключение между состояниями
производится по ссылкам: Admin и Рабочий стол.
В настоящее время предпочтительнее работать с Админ-панелью.
Если у Вас открыто состояние Рабочего стола (рис. 2), перейдите по ссылке Admin.
Рис. 1
Рис. 2
Слайд 16Работа с меню системы
В Админ-панели доступны следующие инструменты:
Рабочий стол (переход
к состоянию Рабочий стол)
Проекты (создание проектов)
Мои билеты (создание билетов)
Моя диаграмма
Гантта (контроль за исполнением билетов)
Моя активность (активность в системе)
Мой график активности (детализованная активность в системе)
Слайд 17Окно «Проекты»
Работа с системой начинается в окне «Проекты».
Создать проект* можно
двумя способами:
1. С помощью кнопки "Создать".
2. С помощью импорта
в систему подготовленного табличного файла.
* Проект - это рабочее пространство, в котором осуществляется полный исследовательский цикл, реализованный в Семографе.
Слайд 18Создание проекта с помощью импорта файла
Создайте первый проект.
Для этого
захватите мышкой Ваш файл, сохраненный в формате csv и перетащите
в нижний угол окна в поле загрузки.
Если проект импортируется, появится соответствующее уведомление.
Слайд 19Создание проекта с помощью импорта файла
Если Ваш проект успешно импортировался,
нужно обновить окно браузера и перейти по ссылке появившегося проекта.
Слайд 21Работа в проекте
После перехода в пространство Проекта становится доступным меню
проекта (слева) и инструменты организации доступа к проекту.
В поле Участники
можно дать доступ другим зарегистрированным в системе пользователям и назначить им роль.
Слайд 22Создание полей. Классификация компонентов
В левой панели нужно перейти на вкладку
Полевый анализ.
Открывшееся окно – основное пространство классификации лексического материала.
Перед
тем, как начинать работу необходимо произвести фильтрацию - отделить семантические компоненты (в Вашем проекте это слова-ассоциативные реакции информантов) от слов, которые предназначены для частотного анализа (формируются из всех лексем контекстов; в нашей работе частотный анализ не используется).
Для этого в столбце Компоненты нажмите на иконку фильтр (воронка).
Слайд 23Создание полей. Классификация компонентов
В открывшемся меню фильтров выбрать тип
Слайд 24Создание полей. Классификация компонентов
После чего в появившемся окне тип выбрать
цифру 3.
В отфильтрованном таким образом материале появится дополнительный столбец с
заголовком Тип. В данном столбце указывается материал, который Вы будете анализировать - компоненты (COM).
Слайд 25Создание полей. Классификация компонентов
Для того, чтобы создать поле в ИС
“Семограф”, необходимо ввести его название в столбце Поля в строку
Название.
Предположим, что одной из интегральных (объединяющих) гиперсем будет элемент смысла, который мы условно обозначим как “БУЛЛИНГ”.
Вводим это слово в строку Название столбца Поля и нажимаем на знак + или кнопку enter на клавиатуре.
После чего поле должно появиться в столбце Поля.
Слайд 26Создание полей. Классификация компонентов
После создания поля необходимо внести в него
все компоненты, имеющие семы этого поля.
В столбце Компоненты левой
кнопкой мыши нужно кликнуть на текст (он выделится желтым) и, не отпуская кнопку, “перенести” его в поле (поле при этой процедуре выделяется зеленым цветом).
Один и тот же текст может входить в состав нескольких семантических полей, т.е. в тексте могут одновременно присутствовать несколько полей.
Слайд 27Создание полей. Классификация компонентов
Перед полем, в котором уже есть “привязанные”
компоненты, появляется знак папка. Тот же знак появляется рядом с
компонентом, вошедшим в какое-либо поле.
Если кликнуть на знак папка, откроется весь список компонентов / полей, связанных с данным полем / компонентом.
Чтобы “отвязать” ошибочно прикрепленный к полю компонент, необходимо кликнуть на знак “звено цепи” рядом с компонентом в семантическом поле или рядом с полем под компонентом.
В столбце Поля показатель С соответствует количеству компонентов, “привязанных” к полю; показатель СХ - общее количество всех компонентов этого поля в выборке.
Т.к. в нашем случае в одном контексте находится один компонент, показатели С и СХ будут одинаковыми.
Слайд 28Создание полей. Классификация компонентов
По итогам анализа будет сформирована система семантических
полей, которую Вы будете упорядочивать и интерпретировать в соответствии с
целями и задачами Вашего исследования.
Слайд 30Работа с Семантическими картами
После завершения классификации можно генерировать результаты исследования
для дальнейшей интерпретации.
Нужно перейти во вкладку Семантическая карта (правая
панель) в раздел Поля (вверху окна).
В ней даны две таблицы: верхняя и нижняя.
Верхняя таблица - это сама семантическая карта (С-карта), показывающая, как связаны выделенные Вами поля друг с другом.
На рисунке дан пример С-карты другого проекта.
По горизонтали и по вертикали располагаются семантические поля, в таблице в ячейках на пересечении данных вертикальных и горизонтальных полей располагаются числовые показатели, отражающие количество совместной встречаемости полей в одном контексте (мнении).
Слайд 31Работа с Семантическими картами
Нижняя таблица - это показатели “веса” полей
в выборке, т.е. количество их встречаемости (частота) в выборке. Показатели
даны в абсолютных значениях.
Значения F - это частота встречаемости поля без повторов; значения FR - с повторами. Для исследования актуальны показатели столбца FR.
Если в проекте контекст имеет один компонент, то показатели F и FR идентичны.
Слайд 32Экспорт семантической карты
Для построения графа нужно экспортировать С-карту (для этого
нужно выбрать формат файла – GraphML и нажать на кнопку
Download as).
Экспортированный файл можно загрузить в приложение Gephi (https://gephi.org/).
Чтобы установить Gephi на свой компьютер нужно предварительно установить Java (https://java.com/ru/download/)
Слайд 34Создание выборок
«Семограф» позволяет анализировать распределение С-полей и их связей на
выборках проекта. Например, выборка женщин ли мужчин; женщин определенного возраста
и т.п.
Для создания выборок необходимо иметь соответствующие показатели возраста, занятости и пр. (см. рис. 1 слайд 12).
Чтобы создать выборку нужно (см. рисунок)
- войти во вкладку Контексты на левой панели;
- написать название новой выборки
(в примере создается выборка, в которую войдут данные, полученные от информантов-женщин, поэтому пишется название женский);
- ниже кликом мышки выбрать поле create option “название выборки” (на рисунке option “женский”) - для того, чтобы позднее иметь возможность задать параметры создания новой выборки;
Слайд 35Создание выборок
- далее нужно выбрать знак фильтра (воронка) в правом
верхнем углу таблицы, после чего появится возможность выбрать и добавить
параметры фильтрации материала;
- нажать на кнопку Добавить и в открывшемся меню выбрать необходимый параметр (на рисунке это параметр Пол).
Слайд 36Создание выборок
- после того, как нужный параметр выбран, рядом появляется
окно, одноименное этому параметру (на рисунке название окна Пол);
- в
появившееся окно мы вписываем название фильтра (на рисунке это буква ж), и в итоге формируется выборка, в которую входят только нужные для исследования данные (тексты, написанные женщинами).
Слайд 37Создание С-карт на основе выборок
Созданные выборки позволяют генерировать семантические карты
на основе контекстов не всего проекта, а только тех, которые
вошли в соответствующую выборку.
Для этого в окне Семантическая карта в поле Выборка нужно найти искомую выборку (например, «Женский»).
С-карта автоматически пересчитает значения для этой выборки.
Чтобы экспортировать С-карту, построенную на этой выборке, нужно воспользоваться инструментами, описанными на слайде 32 (внизу окна выбрать формат файла – GraphML и нажать на кнопку Download as).
Слайд 38Perm State University
https://semograph.org