BC/NW 2023 № 1 (40):11.2

МЕТОДЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДАННЫХ ДЛЯ ОБЕЗЛИЧИВАНИЯ

Бабак Н.Г., Оцоков Ш.А

Чтобы заменить персональные данные (ПДн) и прочую конфиденциальную информацию на обезличенные [1] значения синонимическим алгоритмом необходимо сгенерировать синтетические данные. Генерация должна осуществляться по определённым правилам, а также при синонимической замене сгенерированные обезличенные сущности должны быть неотличимы от исходных данных.

В зависимости от типа данных и их предполагаемого использования существует несколько основных способов их генерации:

1.    Формирование синонимичной сущности с помощью генератора псевдослучайных чисел и расчёта контрольных разрядов;

2.    Замена значением из словаря с сохранением морфологических [2] особенностей текста;

3.    Формирование заглушки на основе типа заменяемой сущности;

4.    Размытие числа или даты в заданном диапазоне.

К правилам, на основе которых генерируется синтетическое значение, относятся тип и вид данных, морфологические особенности (род, число, падеж, часть речи), наличие контрольного разряда, алгоритм обезличивания. Например, при использовании в качестве алгоритма обезличивания маскирования в большинстве случаев достаточно генерации нескольких заглушек/плейсхолдеров. В то время как для синонимического обезличивания используются практически все перечисленные способы генерации синтетических данных.

Наибольшую сложность в структурированной информации представляют поля, содержащие несколько подтипов данных. Например, поле с клиентами может содержать как физических лиц – фамилия, имя, отчество, так и юридических лиц – полное или краткое название организации. В таком случае при генерации необходимо учитывать вид данных в каждой отдельной ячейке.

Также при генерации данных необходимо учитывать их формат записи и занимаемую длину, особенно для неструктурированной информации. Кроме того, одинаковые значения могут быть записаны в разном формате, что тоже необходимо учитывать, так как одинаковые значения при обезличивании следует заменять на одинаковые синтетические.

Литература

1.    Приказ Роскомнадзора от 5 сентября 2013 г. № 996 «Об утверждении требований и методов по обезличиванию персональных данных».

2.    Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, pp 320-332 (2015).