BC/NW 2024№ 1 (41):4.2
АНАЛИЗ ПРИМЕНЕНИЯ MATCHING DEPENDENCIES И COMPARABLE DEPENDENCIES ПРИ АНАЛИЗЕ НЕТОЧНЫХ ДАННЫХ
Попов Д.И. Нигматулина К.В., Крюков А.Ф.
В современных системах хранения информации для анализа данных, полученных из реальных источников, требуются специальные инструменты, так как одни и те же по смыслу значения будут различаться по форме записи. Такими инструментами являются два типа зависимостей: matching dependencies (MD) и comparable dependencies (CD). Целью настоящей работы является анализ данных иснтрументов.
Определение MD:
,
где описаны в [1].
Определение CD:
,
где описаны в [2].
MD являются частным случаем CD, их принято выделять в отдельный класс зависимостей. Существуют алгоритмы эффективного поиска MD, например HyMD — алгоритм поиска минимальных MD [1]. MD удобно использовать для поиска дублирующих записей, так в [3] описан алгоритм MDedup, в основе которого лежат MD. CD применимы для широкого спектра задач, например, обработка нарушений в данных [4]. В [2] авторы считают, что CD найдут применение в поиске ошибочных записей и поиске корректных ответов на запрос в базах данных с неточными данными.
Несмотря на то, что и MD и CD имеют широкую применимость в анализе больших данных, алгоритмы для поиска этих зависимостей не получили широкого распространения в индустрии. Поэтому, неоходимо расширить и реализовать эти алгоритмы так, чтобы их можно было использовать в реальных задачах. На настоящий момент отсутствует открытая реализация этих алгоритмов.
Список литературы
1. P. Schirmer, T. Papenbrock, I. Koumarelas, F. Naumann “Efficient Discovery of Matching Dependencies” // ACM Transactions on Database Systems. 2020. Т45. №3.
2. S. Song, L.Chen, P. S. Yu “Comparable dependencies over heterogeneous data” // The VLDB Journal. 2013. Т22. №2.
3. I. Koumarelas, T. Papenbrock, F. Naumann “MDedup: Duplicate Detection with Matching Dependencies” // Proceedings of the VLDB Endowment. 2020 Т.13. №5.
4. S. Song, L. Chen, P. S. Yu “On Data Dependencies in Dataspaces” // 2011 IEEE 27th International Conference on Data Engineering.