BC/NW 2018 № 1 (32):11.3

РЕШЕНИЕ ЗАДАЧИ КАТЕГОРИЗАЦИИ В СИСТЕМАХ ЗАЩИТЫ ОТ УТЕЧЕК ДАННЫХ

Мартынова Ю. Ф., Филатов А. В.

В настоящее время технологии, связанные с машинным обучением, внедряются в системы различного назначения. Данные технологии могут быть использованы в системах защиты от утечек данных (DLP-системы).

Системы защиты от утечек данных — программно-аппаратный комплекс, предназначенный для отслеживания и блокирования попыток передачи конфиденциальных данных за пределы информационной системы. DLP-системы строятся на анализе потоков данных, пересекающих пределы информационной системы, защиту которой они обеспечивают.

В рамках анализа потоков данных могут быть успешно применены алгоритмы машинного обучения для классификации угроз. Такой поиск является задачей классификации, которая, в свою очередь, является задачей машинного обучения [2].

При выборе конкретного алгоритма классификации необходимо учесть следующие особенности систем защиты от утечек данных:

1. Данные системы работают с данными различного содержания

2. Архитектурно DLP-система должна быть гибкой, так как может быть внедрена в различные информационные системы

3. Система отслеживает и анализирует данные в автоматическом режиме, собранные ею данные анализируется человеком

Исходя из вышеперечисленных особенностей, для решения поставленной задачи должен быть выбран алгоритм, обучающийся онлайн [2].

Для реализации был выбран алгоритм линейной взвешенной классификации (Multi-Class Confidence Weighted Algorithm) [2]. Применение алгоритма позволяет улучшить ряд характеристик системы: точность, безопасность. Данный алгоритм был реализован в виде аддона для платформы NodeJS для дальнейшего встраивания в WEB-комплекс защиты.

Литература

1. Вьюгин В. В. Математические основы теории машинного обучения и прогнозиро-

вания. М.: 2013. — 387 с.

2. Dredze, M., Crammer, K., and Pereira, F. Confidence-Weighted Linear Classification

ICML2008 (Helsinki, Finland), 2008 URL: https://www.cs.jhu.edu/~mdredze/publications/icml_variance.pdf