Обзор
задач хранения, обработки и анализа данных корпоративного уровня.
Д.В.Гусев, студ.; рук. О.И.Артюхов, к.т.н., доцент
(МЭИ(Технический университет), г.Москва Россия)
На сегодняшний день многие
промышленные и торгующие компании уже построили у себя информационные системы
для накопления транзакционных данных. Теперь перед управляющим персоналом
компаний стоит задача не только «знать», но и задача «понимать». Решением этих
задач и занимаются системы сектора Business Intelligence (BI). Русский перевод этого
термина не устоялся, но термин «Интеллектуальный анализ данных» наиболее точно
отражает их суть. Далее будут описаны основные задачи BI:
1. Отчетность. Эта задача относится к задачам BI,
хотя в основном решает задачи отображения транзакционных данных. Ее можно
характеризовать работой с достаточно небольшими объемами данных, наличием
понятного для неподготовленного пользователя простого в изучении интерактивного
интерфейса.
2. OLAP. Данные современных
предприятий (особенно в торговле) в основном большинстве являются многомерными.
Поэтому для их исследования необходимы особые средства – средства OLAP.
Для OLAP-анализа используются особый
формат хранения данных – «многомерный куб». OLAP предоставляет пользователю возможность смотреть
данные в разрезе любых измерений с любым уровнем детализации. Point-n-click drag-n-drop интерфейс позволяет быстро
сменить разрез, погрузиться (drill-down)
или сменить (drill-through)
«куб».
3. Хранилища данных (Data Warehouse).
Для проведения аналитических исследований больших объемов данных транзакционные
данные непригодны (из-за частых изменений). Поэтому для анализа в BI
данные обычно выгружаются в хранилища (характеризуемые статичностью (данные не
изменяются) и периодической догрузкой данных). Хранилища оптимизированы для
работы с очень большими объемами данных, быстрых выборок по определенным
критериям. Отдельно выделяется задача загрузки хранилища – «Извлечение –
Преобразование – Загрузка» (процедура ETL).
4. ETL. Эта процедура должна
извлекать данные из источников различных типов (от плоских файлов и электронных
таблиц до СУБД корпоративного уровня), «очищать» данные (контролировать
неверные значения, преобразовывать форматы данных к единому формату, например,
формат даты) и выгружать согласованные, унифицированные, очищенные данные в
хранилище. Эта процедура очень важна при консолидации разрозненных данных
наследованных ИС предприятия.
5. Добыча данных (data mining).
Кроме анализа данных с помощью средств визуализации данных в BI есть
автоматические средства выявления зависимостей и прогнозирования. Мощный мат
аппарат, заложенный в основу этих средств, позволяет выявить значимость
переменных при построении матмодели процесса, использовать различные методы
прогнозирования, строить нейронные сети и т.д.