Вычислительные сети, теория и практика.

BC/NW 2006, №1, (8) : 15.9

ЗАДАЧИ И МЕТОДЫ ТЕХНОЛОГИИ DATA MINING (ДОБЫЧА ДАННЫХ)

С.А. Денисов, А.И. Павленко

(Москва, Московский авиационный институт (технический университет), Россия)

В связи с совершенствованием технологий записи и хранения данных появилась возможность эффективно собирать и накапливать информацию в различных областях. Но без продуктивной переработки потоков сырых данных, эта информация может оказаться практически бесполезной и невостребованной. Специфика современных требований к такой переработке следующая: данные имеют неограниченный объем, данные являются разнородными (количественными, качественными, текстовыми), результаты должны быть конкретны и понятны, инструменты для обработки сырых данных должны быть просты в использовании.

Для решения таких задач в последнее время был разработан ряд технологий, которые призваны извлекать из хранилищ данных (DataWarehouse) большого объема новую информацию путем построения различных моделей. Они и получили название Data Mining («добыча данных»). Простой доступ пользователя к хранилищу данных обеспечивает только получение ответов на задаваемые вопросы, в то время как технология Data Mining позволяет увидеть («добыть») нетривиальные и скрытые взаимоотношения между данными.

Выделяют пять стандартных типов закономерностей [1], которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация, прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Целью этого подхода является нахождение трендов среди большого числа транзакций.

О последовательности говорят, если существует цепочка связанных во времени событий (транзакция). В такой ситуации важно не только сосуществование данных внутри одной транзакции, но и порядок, в котором эти данные появляются в различных транзакциях и время между этими транзакциями.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Однажды определенный эффективный классификатор используется для классификации новых записей в БД в уже существующие классы и в этом случае он приобретает характер прогноза.

Задачи кластеризации относятся к проблеме сегментации. Этот подход распределяет записи в различные группы или сегменты. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка.

Можно выделить следующие основные методы Data Mining [2]: нейронные сети, деревья решений, генетические алгоритмы, нечеткая логика, алгоритмы ограниченного перебора, эволюционное программирование, системы рассуждения на основе аналогичных случаев, индукция правил, анализ с избирательным действием, логическая регрессия, алгоритмы определения ассоциаций и последовательностей, визуализация данных, комбинированные методы.

Литература

1. Дюк В., Самойленко А. Data Mining: учебный курс. // СПб.:Питер, 2001.

2. Барсегян А.А.Методы и модели анализа данных: OLAP И Data Mining. // СПб.:BHV, 2004.