BC/NW 2018 № 1 (32):11.3
РЕШЕНИЕ ЗАДАЧИ КАТЕГОРИЗАЦИИ В СИСТЕМАХ
ЗАЩИТЫ ОТ УТЕЧЕК ДАННЫХ
Мартынова Ю. Ф., Филатов А. В.
В настоящее время технологии, связанные
с машинным обучением, внедряются в системы различного назначения. Данные
технологии могут быть использованы в системах защиты от утечек данных (DLP-системы).
Системы защиты от утечек данных — программно-аппаратный
комплекс, предназначенный для отслеживания и блокирования попыток передачи
конфиденциальных данных за пределы информационной системы. DLP-системы
строятся на анализе потоков данных, пересекающих пределы информационной
системы, защиту которой они обеспечивают.
В рамках анализа потоков данных могут
быть успешно применены алгоритмы машинного обучения для классификации угроз.
Такой поиск является задачей классификации, которая, в свою очередь, является
задачей машинного обучения [2].
При выборе конкретного алгоритма классификации
необходимо учесть следующие особенности систем защиты от утечек данных:
1.
Данные системы работают с данными различного содержания
2.
Архитектурно DLP-система должна
быть гибкой, так как может быть внедрена в различные информационные системы
3.
Система отслеживает и анализирует данные в автоматическом режиме, собранные ею
данные анализируется человеком
Исходя из вышеперечисленных
особенностей, для решения поставленной задачи должен быть выбран алгоритм,
обучающийся онлайн [2].
Для реализации был выбран алгоритм
линейной взвешенной классификации (Multi-Class Confidence Weighted Algorithm) [2].
Применение алгоритма позволяет улучшить ряд характеристик системы: точность,
безопасность. Данный алгоритм был реализован в виде аддона для платформы NodeJS для дальнейшего
встраивания в WEB-комплекс
защиты.
Литература
1.
Вьюгин В. В. Математические основы теории машинного обучения и прогнозиро-
вания. М.: 2013. — 387 с.
2. Dredze, M., Crammer, K., and Pereira,
F. Confidence-Weighted Linear Classification
ICML2008 (Helsinki, Finland), 2008 URL:
https://www.cs.jhu.edu/~mdredze/publications/icml_variance.pdf