BC/NW 2024 № 1 (41):15.3
ИСПОЛЬЗОВАНИЕ ОБЕЗЛИЧЕННЫХ ДАННЫХ В ЗАДАЧАХ МАШИННОГО ОБУЧЕНИЯ
Бабак Н.Г Оцоков Ш.А.
Для развития своих сервисов у компаний возникает желание обрабатывать персональные данные пользователей, строить прогнозы на их основе. Из-за правовых ограничений и рисков понести репутационные потери данные в открытом виде нельзя обрабатывать и хранить в неспециализированных системах. Также в случае обработки данных в компаниях-партнёрах их необходимо передать по сети, что требует определённых соглашений и соответствующего уровня защиты. Решить, описанные выше проблемы, позволяет обезличивание данных.
Существующие системы обезличивания [1-2] обладают следующими недостатками:
1. используются узконаправленные подходы, где распознавание персональных данных реализовано вручную или на основе правил, решения ограничены применением в структурированных данных;
2. чаще всего обезличивание реализуется разрушающим способом, после чего такие данные невозможно использовать, например, в задачах машинного обучения;
3. отсутствует взаимосвязь между видами персональных данных и применяемым алгоритмом обезличивания.
Таким образом, эти недостатки приводят к тому, что обезличенные данные трудно или практически невозможно использовать, так как они теряют свою ценность. В частности, наиболее чувствительными являются задачи, связанные с машинным обучением и привлечением третьих лиц, недопущенных к персональным данным, например, перевод подрядчиками.
Для использования обезличенных данных необходимо обеспечить сохранение стилистических, семантических, лексических и морфологических особенностей текста. Выполнить данную задачу можно, реализовав автоматизированную систему синонимического обезличивания [3], которая обеспечивает сохранение ценности данных.
Литература
1. Саксонов, Е. А. Процедура обезличивания персональных данных / Е. А. Саксонов, Р. В. Шередин // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. – 2011. – № 3. – С. 1.
2. Oleksy M., Ropiak N., Walkowiak T. Automated anonymization of text documents in Polish. Procedia Computer Science. 2021; 192. P. 1323-1333.
3. Патент на изобретение RU 2804747 C1. Способ и система обезличивания конфиденциальных данных. Заявление № 2022132305, 09.12.2022; опубликовано 04.10.2023 / Бабак Н. Г., Белорыбкин Л. Ю., Теренин А. А., Шаброва А. И.; заявитель ПАО Сбербанк.