Обзор задач хранения, обработки и анализа данных корпоративного уровня.

 

 

Д.В.Гусев, студ.; рук. О.И.Артюхов, к.т.н., доцент

 

 

(МЭИ(Технический университет), г.Москва Россия)

 

 

 

 

 

На сегодняшний день многие промышленные и торгующие компании уже построили у себя информационные системы для накопления транзакционных данных. Теперь перед управляющим персоналом компаний стоит задача не только «знать», но и задача «понимать». Решением этих задач и занимаются системы сектора Business Intelligence (BI). Русский перевод этого термина не устоялся, но термин «Интеллектуальный анализ данных» наиболее точно отражает их суть. Далее будут описаны основные задачи BI:

1.     Отчетность. Эта задача относится к задачам BI, хотя в основном решает задачи отображения транзакционных данных. Ее можно характеризовать работой с достаточно небольшими объемами данных, наличием понятного для неподготовленного пользователя простого в изучении интерактивного интерфейса.

2.     OLAP. Данные современных предприятий (особенно в торговле) в основном большинстве являются многомерными. Поэтому для их исследования необходимы особые средства – средства OLAP. Для OLAP-анализа используются особый формат хранения данных – «многомерный куб». OLAP предоставляет пользователю возможность смотреть данные в разрезе любых измерений с любым уровнем детализации. Point-n-click drag-n-drop интерфейс позволяет быстро сменить разрез, погрузиться (drill-down) или сменить (drill-through) «куб».

3.     Хранилища данных (Data Warehouse). Для проведения аналитических исследований больших объемов данных транзакционные данные непригодны (из-за частых изменений). Поэтому для анализа в BI данные обычно выгружаются в хранилища (характеризуемые статичностью (данные не изменяются) и периодической догрузкой данных). Хранилища оптимизированы для работы с очень большими объемами данных, быстрых выборок по определенным критериям. Отдельно выделяется задача загрузки хранилища – «Извлечение – Преобразование – Загрузка» (процедура ETL).

4.     ETL. Эта процедура должна извлекать данные из источников различных типов (от плоских файлов и электронных таблиц до СУБД корпоративного уровня), «очищать» данные (контролировать неверные значения, преобразовывать форматы данных к единому формату, например, формат даты) и выгружать согласованные, унифицированные, очищенные данные в хранилище. Эта процедура очень важна при консолидации разрозненных данных наследованных ИС предприятия.

5.     Добыча данных (data mining). Кроме анализа данных с помощью средств визуализации данных в BI есть автоматические средства выявления зависимостей и прогнозирования. Мощный мат аппарат, заложенный в основу этих средств, позволяет выявить значимость переменных при построении матмодели процесса, использовать различные методы прогнозирования, строить нейронные сети и т.д.