Слайд 1Опыт создания корпуса текстов в сфере информационной безопасности
Сиротина А.Ю., Лукашевич
Н.В.
25.06.19
Международная научная конференция
«Корпусная лингвистика-2019»
Слайд 2Постановка задачи
Основная задача специалистов в сфере информационной безопасности (ИБ) –
оперативное предотвращение утечки и потери данных.
Необходимо максимально быстро получать актуальную
информацию об уязвимостях, вирусах, хакерской активности.
Для этого может быть использована модель автоматического излечения именованных сущностей (ИС) в сфере ИБ.
Слайд 3Основной проблемой при создании модели является отсутствие размеченных корпусов, содержащих
тексты по ИБ.
Наиболее актуальная информация об уязвимостях появляется на специальных
интернет-ресурсах и форумах в виде неструктурированных текстов.
Именно такие тексты должны составлять значительную долю от общего числа текстов корпуса.
Подобные корпуса отсутствуют для русского языка, задача их создания по-прежнему актуальна.
Такой корпус может также быть использован для лингвистического анализа текстов данной предметной области
Постановка задачи
Слайд 4Англоязычные корпуса в сфере ИБ
Процесс создания корпусов англоязычных текстов по
ИБ описывается в ряде работ:
[Weerawardhana et al 2014], [Bridges et
al. 2013]:
Частично структурированные тексты: бюллетени по безопасности Майкрософт, статьи из Национальной базы данных уязвимостей США (NVD, National Vulnerability Database)
[Joshi et al. 2013]
≈320 частично структурированных текстов, ≈30 неструктурированных текстов (статьи из блогов, посвященных ИБ)
Слайд 6Бюллетень по безопасности Microsoft
Слайд 7Англоязычные корпуса в сфере ИБ
Набор тегов в [Joshi et al.
2013]
Software – различное ПО:
Operating_System – операционные системы;
Network_Terms –
различные сетевые протоколы;
Attack – характеристики атаки:
Means – способ атаки, сопутствующие ей явления;
Consequences – конечная цель, результат атаки;
File_Name – названия файлов;
Hardware – аппаратные средства;
NER_Modifier – номера версий ПО;
Other_Technical_Terms – прочие ИС.
Набор тегов в [Weerawardhana et al. 2014]:
Software Name – название ПО;
Version – версия ПО;
Impact – результат атаки;
Attacker Action – действия хакера;
User Action – действия пользователя;
File Name – название файла;
Modifier – союзы и предлоги, которые разделяют упоминания различных версий ПО;
Vulnerability Type – тип уязвимости;
Слайд 8Создание корпуса
В рамках данной работы источником текстов для корпуса послужили
публикации и форумы сайта SecurityLab – неструктурированные тексты.
Слайд 9Публикация с сайта SecurityLab
Слайд 10Фрагмент форума с сайта SecurityLab
Слайд 11Особенности текстов
Неструктурированные тексты
Встречаются орфографические и пунктуационные ошибки: Попробуй написать в
МАК писмицо
Зачастую разговорный стиль
Большое количество иноязычных слов:
Написанных латиницей:
все компьютеры
Macintosh на процессорах PowerPC G3
Транслитерированных:
макос сдох
Большое количество слов, содержащих небуквенные символы, в т.ч. названия сайтов, программ, технологий, никнеймы и проч.
Большое количество «разговорных» вариантов названий: винда, огнелиса (FireFox), гмыло (gmail)
Слайд 12Разметка корпуса
Частичная автоматическая разметка коллекции с использованием системы извлечения именованных
сущностей (ИС) на русском языке ([Можарова 2017]):
Автоматически размечены персоны, локации
и организации (теги Person, Loc и Org соответственно).
Ручная разметка: тексты размечались четырьмя независимыми разметчиками, при этом не все разметчики являлись специалистами в сфере ИБ.
Отсутствие изначальной инструкции по разметке позволит выявить наиболее часто встречающиеся ошибки разметки и сформировать в дальнейшем полноценный набор правил для разметчиков.
Слайд 13Набор тегов
Набор тегов для ручной разметки
Hacker - отдельные хакеры;
Hacker_Group
- группы хакеров;
Program - программы, в том числе сайты,
функции, части программ;
Device - электронное оборудование;
Tech - технологии;
Virus - зловредное ПО разной природы;
Event - различные события и мероприятия.
Теги, приписываемые автоматически:
Person
Loc
Org
Слайд 15Объем корпуса
Всего было размечено 1124 публикаций.
Было принято решение включить
в корпус только те тексты, которые содержат хотя бы один
из релевантных для ИБ тегов, то есть: Hacker, Hacker_Group, Program, Device, Tech, Virus.
Итоговый объем корпуса - 861 текст (406488 токенов).
Слайд 16Повторный анализ разметки
В целях устранения возможных неточностей разметки был произведен
повторный анализ размеченных текстов.
В результате было установлено, что разметчики принимают
разные решения при разметке одинаковых контекстов, что привело к большому количеству ошибок и неточностей и общей непоследовательности разметки.
Слайд 17Другие примеры непоследовательной разметки
Включение или исключение из аннотации русскоязычной части
слова с дефисным написанием, где первая часть является ИС:
Выделение одной
или двух ИС в контекстах, где название программы или технологии содержит название разработчика:
Выделение или отсутствие ИС на номерах версий продукта в случае, если они перечислены вслед за названием продукта:
Слайд 18Другие трудности при разметке
Некоторые типы ИС, выбор тега для которых
был затруднен:
платежные системы; криптовалюта; языки программирования; программные ошибки; ссылки и
директории.
Выбор тега для ИС с дефисным написанием:
ИС, выбор тега для которых зависит от контекста:
Организация/Программа: Яндекс, Google;
Программа/Девайс: различные программно-аппаратные средства и комплексы (например, межсетевые экраны);
Слайд 19Создание инструкции для аннотаторов
Разметка текстов, посвященных ИБ, является нетривиальной задачей,
в особенности для людей, не являющихся специалистами в данной области.
Для
создания последовательной и корректной разметки, разметчикам необходимо иметь в своем распоряжении полноценную инструкцию, описывающую все сложные для разметки неоднозначные контексты.
Слайд 20Инструкция для аннотаторов
Русскоязычная часть ИС с дефисным написанием включается в
аннотацию. Ключевым при выборе тега является именно русскоязычная часть слова:
устройство Device
В контекстах, где название программы или технологии содержит название ее разработчика, последнее не выделяется в качестве отдельной ИС:
На версиях продукта, перечисленных после названия продукта, отдельные ИС
выделяются, если названия
версий содержат
буквенные символы:
Слайд 21Инструкция для аннотаторов
В новой инструкции для каждого тега указываются типы
ИС, которым он (не) присваивается:
К Program относятся : операционные системы (iOS 9);
браузеры (Google Chrome); скачиваемые и устанавливаемые программы (Adblock); сайты (но не ссылки: SlideShare); файлы и процессы, названия которых записаны в виде «имя.расширение» (Autorun.exe, ipfilter.dat) и пр.;
К Program не относятся: ссылки и директории, непрерывные части кода, ряд аббревиатур (ПО, ОС, СПО и пр.);
К Device относятся : компьютеры, смартфоны, карты памяти, жесткие диски, материнские платы, видеокарты, модемы, роутеры;
К Device не относятся: автомобили, банковские карты, ряд аббревиатур (МФУ, ПК и пр.);
Слайд 22Результаты
Выделены основные типы ИС, встречающиеся в текстах по ИБ.
Перечислены трудности,
с которыми сталкиваются разметчики.
Предложена детальная инструкция, которая включает в
себя подробное описание тегов и правила выделения и аннотации ИС в неоднозначных контекстах.
В соответствии с разработанной инструкцией размечен корпус текстов, который используется для обучения и тестирования моделей извлечения ИС в сфере ИБ:
CFR-модель
Нейронные сети различных архитектур
Слайд 23Литература
Можарова В.А. (2017), Методы машинного обучения в задаче извлечения именованных сущностей
на русском языке. Дипломная работа (магистр), МГУ имени М.В. Ломоносова.
Jones C.L.,
Bridges R.A., Huffer K.M., Goodall J.R. (2015), Towards a relation extraction framework for cyber-security concepts. In Proceedings of the 10th Annual Cyber and Information Security Research Conference, p. 11.
Joshi A., Lal R., Finin T., Joshi A. (2013), Extracting cybersecurity related linked data from text. In Semantic Computing (ICSC), 2013 IEEE Seventh International Conference, pp. 252-259.
Weerawardhana S., Mukherjee S., Ray I., Howe A. (2014), Automated Extraction of Vulnerability Information for Home Computer Security. In International Symposium on Foundations and Practice of Security, pp. 356-366.