BC/NW 2022 № 1 (39):6.2

 

СПОСОБЫ РАСПОЗНАВАНИЯ И ОБЕЗЛИЧИВАНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ

Бабак Н. Г., Оцоков Ш.А.

Предварительным этапом обезличивания персональных данных (ПДн) является их распознавание среди всей информации. Ручное выделение определённого вида информации не только сильно замедляет процесс, но и всё ещё подвержено риску человеческой ошибки.

Существует несколько основных автоматизированных способов распознать какую-либо информацию – это словари, регулярные выражения и алгоритмы машинного обучения. Поскольку существует большое разнообразие данных, прямо или косвенно идентифицирующих человека, например фамилия, имя и отчество (ФИО), серия и номер паспорта, номер телефона, то для их распознавания придется создавать и постоянно поддерживать в актуальном состоянии большие словари, что требует дополнительных временных затрат и повышает риск пропустить критичную информацию. Решить данную проблему можно с помощью машинного обучения. В частности, задача распознавания ПДн сводится к задаче распознавания именованных сущностей [1]. Существует несколько основных способов решения этой задачи, среди которых наиболее передовым является архитектура нейросетей – трансформеров [2].

Распознанные ПДн необходимо не просто удалить из текста, а заменить с учётом синонимических и морфологических особенностей, то есть произвести «умное» обезличивание. Для генерации данных, на которые производится замена, разработаны следующие алгоритмы:

1.    Генерация синонимичной сущности с помощью регулярных выражений и контрольных разрядов;

2.    Замена значением из словаря и сохранение морфологических особенностей текста с помощью нейросетей;

3.    Замена одинаковых сущностей на одинаковые для сохранения смысла и контекста текста.

Более того, необходимо анализировать тип входных данных для сохранения структуры в обезличенных документах. Для обработки сканов документов необходимо включить в процесс обезличивания систему распознавания текста на изображениях.

Литература

1.    Arya Roy. Recent Trends in Named Entity Recognition (NER) // Carnegie Mellon University, 2021. arXiv:2101.11420v1.

2.    Vaswani A. et al. Attention Is All You Need // 31st Conference on Neural Information Processing Systems, 2017. arXiv:1706.03762v5.