Опыт создания корпуса текстов в сфере информационной безопасности

Содержание

1. Опыт создания корпуса текстов в сфере информационной безопасности
2. Постановка задачиОсновная задача специалистов в сфере информационной
3. Основной проблемой при создании модели является отсутствие
4. Англоязычные корпуса в сфере ИБПроцесс создания корпусов
5. Статья из NVD
6. Бюллетень по безопасности Microsoft
7. Англоязычные корпуса в сфере ИБНабор тегов в
8. Создание корпусаВ рамках данной работы источником текстов
9. Публикация с сайта SecurityLab
10. Фрагмент форума с сайта SecurityLab
11. Особенности текстовНеструктурированные текстыВстречаются орфографические и пунктуационные ошибки:
12. Разметка корпусаЧастичная автоматическая разметка коллекции с использованием
13. Набор теговНабор тегов для ручной разметкиHacker -
14. Инструмент для разметки: BRAT
15. Объем корпусаВсего было размечено 1124 публикаций. Было
16. Повторный анализ разметкиВ целях устранения возможных неточностей
17. Другие примеры непоследовательной разметкиВключение или исключение из
18. Другие трудности при разметкеНекоторые типы ИС, выбор
19. Создание инструкции для аннотаторовРазметка текстов, посвященных ИБ,
20. Инструкция для аннотаторовРусскоязычная часть ИС с дефисным
21. Инструкция для аннотаторовВ новой инструкции для каждого
22. РезультатыВыделены основные типы ИС, встречающиеся в текстах
23. ЛитератураМожарова В.А. (2017), Методы машинного обучения в задаче
24. Скачать презентанцию

Постановка задачиОсновная задача специалистов в сфере информационной безопасности (ИБ) – оперативное предотвращение утечки и потери данных.Необходимо максимально быстро получать актуальную информацию об уязвимостях, вирусах, хакерской активности.Для этого может быть использована модель

Главная
Разное
Опыт создания корпуса текстов в сфере информационной безопасности

Слайды и текст этой презентации

Слайд 1Опыт создания корпуса текстов в сфере информационной безопасности
Сиротина А.Ю., Лукашевич

Н.В.
25.06.19
Международная научная конференция
«Корпусная лингвистика-2019»

Опыт создания корпуса текстов в сфере информационной безопасностиСиротина А.Ю., Лукашевич Н.В.25.06.19Международная научная конференция «Корпусная лингвистика-2019»

Слайд 2Постановка задачи
Основная задача специалистов в сфере информационной безопасности (ИБ) –

оперативное предотвращение утечки и потери данных.
Необходимо максимально быстро получать актуальную

информацию об уязвимостях, вирусах, хакерской активности.
Для этого может быть использована модель автоматического излечения именованных сущностей (ИС) в сфере ИБ.

Постановка задачиОсновная задача специалистов в сфере информационной безопасности (ИБ) – оперативное предотвращение утечки и потери данных.Необходимо максимально

Слайд 3Основной проблемой при создании модели является отсутствие размеченных корпусов, содержащих

тексты по ИБ.
Наиболее актуальная информация об уязвимостях появляется на специальных

интернет-ресурсах и форумах в виде неструктурированных текстов.
Именно такие тексты должны составлять значительную долю от общего числа текстов корпуса.
Подобные корпуса отсутствуют для русского языка, задача их создания по-прежнему актуальна.

Такой корпус может также быть использован для лингвистического анализа текстов данной предметной области

Постановка задачи

Основной проблемой при создании модели является отсутствие размеченных корпусов, содержащих тексты по ИБ.Наиболее актуальная информация об уязвимостях

Слайд 4Англоязычные корпуса в сфере ИБ
Процесс создания корпусов англоязычных текстов по

ИБ описывается в ряде работ:
[Weerawardhana et al 2014], [Bridges et

al. 2013]:
Частично структурированные тексты: бюллетени по безопасности Майкрософт, статьи из Национальной базы данных уязвимостей США (NVD, National Vulnerability Database)
[Joshi et al. 2013]
≈320 частично структурированных текстов, ≈30 неструктурированных текстов (статьи из блогов, посвященных ИБ)

Англоязычные корпуса в сфере ИБПроцесс создания корпусов англоязычных текстов по ИБ описывается в ряде работ:[Weerawardhana et al

Слайд 5Статья из NVD

Слайд 6Бюллетень по безопасности Microsoft

Слайд 7Англоязычные корпуса в сфере ИБ
Набор тегов в [Joshi et al.

2013]
Software – различное ПО:
Operating_System – операционные системы;
Network_Terms –

различные сетевые протоколы;
Attack – характеристики атаки:
Means – способ атаки, сопутствующие ей явления;
Consequences – конечная цель, результат атаки;
File_Name – названия файлов;
Hardware – аппаратные средства;
NER_Modifier – номера версий ПО;
Other_Technical_Terms – прочие ИС.

Набор тегов в [Weerawardhana et al. 2014]:
Software Name – название ПО;
Version – версия ПО;
Impact – результат атаки;
Attacker Action – действия хакера;
User Action – действия пользователя;
File Name – название файла;
Modifier – союзы и предлоги, которые разделяют упоминания различных версий ПО;
Vulnerability Type – тип уязвимости;

Англоязычные корпуса в сфере ИБНабор тегов в [Joshi et al. 2013]Software – различное ПО: Operating_System – операционные

Слайд 8Создание корпуса
В рамках данной работы источником текстов для корпуса послужили

публикации и форумы сайта SecurityLab – неструктурированные тексты.

Создание корпусаВ рамках данной работы источником текстов для корпуса послужили публикации и форумы сайта SecurityLab – неструктурированные

Слайд 9Публикация с сайта SecurityLab

Слайд 10Фрагмент форума с сайта SecurityLab

Слайд 11Особенности текстов
Неструктурированные тексты
Встречаются орфографические и пунктуационные ошибки: Попробуй написать в

МАК писмицо
Зачастую разговорный стиль
Большое количество иноязычных слов:
Написанных латиницей: все компьютеры

Macintosh на процессорах PowerPC G3
Транслитерированных: макос сдох
Большое количество слов, содержащих небуквенные символы, в т.ч. названия сайтов, программ, технологий, никнеймы и проч.
Большое количество «разговорных» вариантов названий: винда, огнелиса (FireFox), гмыло (gmail)

Особенности текстовНеструктурированные текстыВстречаются орфографические и пунктуационные ошибки: Попробуй написать в МАК писмицоЗачастую разговорный стильБольшое количество иноязычных слов:Написанных

Слайд 12Разметка корпуса
Частичная автоматическая разметка коллекции с использованием системы извлечения именованных

сущностей (ИС) на русском языке ([Можарова 2017]):
Автоматически размечены персоны, локации

и организации (теги Person, Loc и Org соответственно).
Ручная разметка: тексты размечались четырьмя независимыми разметчиками, при этом не все разметчики являлись специалистами в сфере ИБ.

Отсутствие изначальной инструкции по разметке позволит выявить наиболее часто встречающиеся ошибки разметки и сформировать в дальнейшем полноценный набор правил для разметчиков.

Разметка корпусаЧастичная автоматическая разметка коллекции с использованием системы извлечения именованных сущностей (ИС) на русском языке ([Можарова 2017]):Автоматически

Слайд 13Набор тегов
Набор тегов для ручной разметки
Hacker - отдельные хакеры;
Hacker_Group

- группы хакеров;
Program - программы, в том числе сайты,

функции, части программ;
Device - электронное оборудование;
Tech - технологии;
Virus - зловредное ПО разной природы;
Event - различные события и мероприятия.

Теги, приписываемые автоматически:
Person
Loc
Org

Набор теговНабор тегов для ручной разметкиHacker - отдельные хакеры; Hacker_Group - группы хакеров; Program - программы, в

Слайд 14Инструмент для разметки: BRAT

Слайд 15Объем корпуса
Всего было размечено 1124 публикаций.
Было принято решение включить

в корпус только те тексты, которые содержат хотя бы один

из релевантных для ИБ тегов, то есть: Hacker, Hacker_Group, Program, Device, Tech, Virus.
Итоговый объем корпуса - 861 текст (406488 токенов).

Объем корпусаВсего было размечено 1124 публикаций. Было принято решение включить в корпус только те тексты, которые содержат

Слайд 16Повторный анализ разметки
В целях устранения возможных неточностей разметки был произведен

повторный анализ размеченных текстов.
В результате было установлено, что разметчики принимают

разные решения при разметке одинаковых контекстов, что привело к большому количеству ошибок и неточностей и общей непоследовательности разметки.

Повторный анализ разметкиВ целях устранения возможных неточностей разметки был произведен повторный анализ размеченных текстов.В результате было установлено,

Слайд 17Другие примеры непоследовательной разметки
Включение или исключение из аннотации русскоязычной части

слова с дефисным написанием, где первая часть является ИС:

Выделение одной

или двух ИС в контекстах, где название программы или технологии содержит название разработчика:

Выделение или отсутствие ИС на номерах версий продукта в случае, если они перечислены вслед за названием продукта:

Другие примеры непоследовательной разметкиВключение или исключение из аннотации русскоязычной части слова с дефисным написанием, где первая часть

Слайд 18Другие трудности при разметке
Некоторые типы ИС, выбор тега для которых

был затруднен:
платежные системы; криптовалюта; языки программирования; программные ошибки; ссылки и

директории.
Выбор тега для ИС с дефисным написанием:

ИС, выбор тега для которых зависит от контекста:
Организация/Программа: Яндекс, Google;
Программа/Девайс: различные программно-аппаратные средства и комплексы (например, межсетевые экраны);

Другие трудности при разметкеНекоторые типы ИС, выбор тега для которых был затруднен:платежные системы; криптовалюта; языки программирования; программные

Слайд 19Создание инструкции для аннотаторов
Разметка текстов, посвященных ИБ, является нетривиальной задачей,

в особенности для людей, не являющихся специалистами в данной области.
Для

создания последовательной и корректной разметки, разметчикам необходимо иметь в своем распоряжении полноценную инструкцию, описывающую все сложные для разметки неоднозначные контексты.

Создание инструкции для аннотаторовРазметка текстов, посвященных ИБ, является нетривиальной задачей, в особенности для людей, не являющихся специалистами

Слайд 20Инструкция для аннотаторов
Русскоязычная часть ИС с дефисным написанием включается в

аннотацию. Ключевым при выборе тега является именно русскоязычная часть слова:

устройство  Device

В контекстах, где название программы или технологии содержит название ее разработчика, последнее не выделяется в качестве отдельной ИС:

На версиях продукта, перечисленных после названия продукта, отдельные ИС выделяются, если названия версий содержат буквенные символы:

Инструкция для аннотаторовРусскоязычная часть ИС с дефисным написанием включается в аннотацию. Ключевым при выборе тега является именно

Слайд 21Инструкция для аннотаторов
В новой инструкции для каждого тега указываются типы

ИС, которым он (не) присваивается:
К Program относятся : операционные системы (iOS 9);

браузеры (Google Chrome); скачиваемые и устанавливаемые программы (Adblock); сайты (но не ссылки: SlideShare); файлы и процессы, названия которых записаны в виде «имя.расширение» (Autorun.exe, ipfilter.dat) и пр.;
К Program не относятся: ссылки и директории, непрерывные части кода, ряд аббревиатур (ПО, ОС, СПО и пр.);

К Device относятся : компьютеры, смартфоны, карты памяти, жесткие диски, материнские платы, видеокарты, модемы, роутеры;
К Device не относятся: автомобили, банковские карты, ряд аббревиатур (МФУ, ПК и пр.);

Инструкция для аннотаторовВ новой инструкции для каждого тега указываются типы ИС, которым он (не) присваивается:К Program относятся : операционные

Слайд 22Результаты
Выделены основные типы ИС, встречающиеся в текстах по ИБ.
Перечислены трудности,

с которыми сталкиваются разметчики.
Предложена детальная инструкция, которая включает в

себя подробное описание тегов и правила выделения и аннотации ИС в неоднозначных контекстах.
В соответствии с разработанной инструкцией размечен корпус текстов, который используется для обучения и тестирования моделей извлечения ИС в сфере ИБ:
CFR-модель
Нейронные сети различных архитектур

РезультатыВыделены основные типы ИС, встречающиеся в текстах по ИБ.Перечислены трудности, с которыми сталкиваются разметчики. Предложена детальная инструкция,

Слайд 23Литература
Можарова В.А. (2017), Методы машинного обучения в задаче извлечения именованных сущностей

на русском языке. Дипломная работа (магистр), МГУ имени М.В. Ломоносова.
Jones C.L.,

Bridges R.A., Huffer K.M., Goodall J.R. (2015), Towards a relation extraction framework for cyber-security concepts. In Proceedings of the 10th Annual Cyber and Information Security Research Conference, p. 11.
Joshi A., Lal R., Finin T., Joshi A. (2013), Extracting cybersecurity related linked data from text. In Semantic Computing (ICSC), 2013 IEEE Seventh International Conference, pp. 252-259.
Weerawardhana S., Mukherjee S., Ray I., Howe A. (2014), Automated Extraction of Vulnerability Information for Home Computer Security. In International Symposium on Foundations and Practice of Security, pp. 356-366.

ЛитератураМожарова В.А. (2017), Методы машинного обучения в задаче извлечения именованных сущностей на русском языке. Дипломная работа (магистр), МГУ

Скачать презентацию

Разделы презентаций

Опыт создания корпуса текстов в сфере информационной безопасности

Содержание

Слайды и текст этой презентации

Слайд 1Опыт создания корпуса текстов в сфере информационной безопасностиСиротина А.Ю., Лукашевич

Н.В.25.06.19Международная научная конференция «Корпусная лингвистика-2019»

Слайд 2Постановка задачиОсновная задача специалистов в сфере информационной безопасности (ИБ) –

оперативное предотвращение утечки и потери данных.Необходимо максимально быстро получать актуальную

Слайд 3Основной проблемой при создании модели является отсутствие размеченных корпусов, содержащих

тексты по ИБ.Наиболее актуальная информация об уязвимостях появляется на специальных

Слайд 4Англоязычные корпуса в сфере ИБПроцесс создания корпусов англоязычных текстов по

ИБ описывается в ряде работ:[Weerawardhana et al 2014], [Bridges et

Слайд 5Статья из NVD

Слайд 6Бюллетень по безопасности Microsoft

Слайд 7Англоязычные корпуса в сфере ИБНабор тегов в [Joshi et al.

2013]Software – различное ПО: Operating_System – операционные системы; Network_Terms –

Слайд 8Создание корпусаВ рамках данной работы источником текстов для корпуса послужили

публикации и форумы сайта SecurityLab – неструктурированные тексты.

Слайд 9Публикация с сайта SecurityLab

Слайд 10Фрагмент форума с сайта SecurityLab

Слайд 11Особенности текстовНеструктурированные текстыВстречаются орфографические и пунктуационные ошибки: Попробуй написать в

МАК писмицоЗачастую разговорный стильБольшое количество иноязычных слов:Написанных латиницей: все компьютеры

Слайд 12Разметка корпусаЧастичная автоматическая разметка коллекции с использованием системы извлечения именованных

сущностей (ИС) на русском языке ([Можарова 2017]):Автоматически размечены персоны, локации

Слайд 13Набор теговНабор тегов для ручной разметкиHacker - отдельные хакеры; Hacker_Group

- группы хакеров; Program - программы, в том числе сайты,

Слайд 14Инструмент для разметки: BRAT

Слайд 15Объем корпусаВсего было размечено 1124 публикаций. Было принято решение включить

в корпус только те тексты, которые содержат хотя бы один

Слайд 16Повторный анализ разметкиВ целях устранения возможных неточностей разметки был произведен

повторный анализ размеченных текстов.В результате было установлено, что разметчики принимают

Слайд 17Другие примеры непоследовательной разметкиВключение или исключение из аннотации русскоязычной части

слова с дефисным написанием, где первая часть является ИС:Выделение одной

Слайд 18Другие трудности при разметкеНекоторые типы ИС, выбор тега для которых

был затруднен:платежные системы; криптовалюта; языки программирования; программные ошибки; ссылки и

Слайд 19Создание инструкции для аннотаторовРазметка текстов, посвященных ИБ, является нетривиальной задачей,

в особенности для людей, не являющихся специалистами в данной области.Для

Слайд 20Инструкция для аннотаторовРусскоязычная часть ИС с дефисным написанием включается в