BC/NW 2006, №1, (8) : 15.9
ЗАДАЧИ И МЕТОДЫ ТЕХНОЛОГИИ DATA MINING (ДОБЫЧА ДАННЫХ)
С.А. Денисов, А.И. Павленко
(Москва, Московский авиационный институт (технический университет), Россия)
В связи с
совершенствованием технологий записи и хранения данных появилась возможность
эффективно собирать и накапливать информацию в различных
областях. Но без продуктивной переработки потоков сырых данных, эта
информация может оказаться практически бесполезной и невостребованной.
Специфика современных требований к такой переработке следующая: данные имеют
неограниченный объем, данные являются разнородными (количественными,
качественными, текстовыми), результаты должны быть конкретны и понятны, инструменты
для обработки сырых данных должны быть просты в использовании.
Для решения
таких задач в последнее время был разработан ряд технологий, которые призваны
извлекать из хранилищ данных (DataWarehouse) большого объема новую
информацию путем построения различных моделей. Они и получили название Data Mining («добыча данных»). Простой
доступ пользователя к хранилищу данных обеспечивает только получение ответов на
задаваемые вопросы, в то время как технология Data Mining позволяет
увидеть («добыть») нетривиальные и скрытые взаимоотношения между данными.
Выделяют пять стандартных типов закономерностей [1],
которые позволяют выявлять методы Data
Mining: ассоциация, последовательность,
классификация, кластеризация, прогнозирование.
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Целью этого подхода является
нахождение трендов среди большого числа транзакций.
О последовательности говорят,
если существует цепочка связанных во времени событий (транзакция). В такой
ситуации важно не только сосуществование данных внутри одной транзакции, но и
порядок, в котором эти данные появляются в различных транзакциях и время между
этими транзакциями.
С помощью классификации выявляются признаки,
характеризующие группу, к которой принадлежит тот или иной объект. Это делается
посредством анализа уже классифицированных объектов и формулирования некоторого
набора правил. Однажды определенный эффективный классификатор используется для
классификации новых записей в БД в уже существующие классы и в этом случае он
приобретает характер прогноза.
Задачи кластеризации относятся к проблеме сегментации. Этот подход
распределяет записи в различные группы или сегменты. Кластеризация отличается от классификации тем, что сами группы
заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы
данных.
Основой для систем прогнозирования служит
историческая информация, хранящаяся в БД в виде временных рядов. Если удается
построить шаблоны, адекватно отражающие динамику поведения целевых показателей,
есть вероятность, что с их помощью можно предсказать и поведение системы в
будущем.
Data Mining является мультидисциплинарной областью, возникшей и
развивающейся на базе достижений прикладной статистики, распознавания образов,
методов искусственного интеллекта, теории баз данных и др. Отсюда обилие
методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем
интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой
системе имеется какая-то ключевая компонента, на которую делается главная
ставка.
Можно выделить следующие основные методы Data Mining [2]: нейронные сети, деревья решений, генетические
алгоритмы, нечеткая логика, алгоритмы ограниченного перебора, эволюционное
программирование, системы рассуждения на основе аналогичных случаев, индукция
правил, анализ с избирательным действием, логическая регрессия, алгоритмы
определения ассоциаций и последовательностей, визуализация данных, комбинированные
методы.
Литература
1. Дюк В., Самойленко А. Data Mining: учебный курс. //
СПб.:Питер, 2001.
2.
Барсегян
А.А.Методы
и
модели анализа данных: OLAP И Data Mining. // СПб.:BHV,
2004.