Вычислительные сети, теория и практика.

BC/NW 2010; №2 (17):4.3

АНАЛИЗ МОДЕЛЕЙ ПРЕДСТАВЛЕНИЯ ДАННЫХ

Волкова Г.Д., Григорьев О.Г.

(Московский государственный технологический университет «Станкин», Россия)

Приведены характеристики и особенности моделей представления данных в наиболее распространенных системах управления базами данных: реляционная, постреляционная, объектно-ориентированная и многомерная модели данных. Выявлены ограниченность и проблематика указанных моделей для целей использования в методологии автоматизации интеллектуального труда.

Ключевые слова: характеристика моделей представления данных, реляционная модель данных (МД), постреляционая МД, объектно-ориентированная МД, многомерная МД, недостатки, проблемы, использование в МАИТ.

Основания для проведения анализа

Методология автоматизации интеллектуального труда, изложенная в публикациях [1,2,3], обеспечивает промышленный способ создания прикладных информационных и автоматизированных систем на основе взаимоувязанных семантических и синтаксических модельных представлений предметных задач. Наличие семантического представления задачи обеспечивает содержательное единство формируемых синтаксических моделей.

Одной из существенных проблем методологии автоматизации интеллектуального труда является наличие определенного разрыва между модельными представлениями, инвариантными к программно-технической среде реализации прикладных автоматизированных систем, и модельными представлениями, ориентированными на конкретную среду реализации. Суть такого разрыва в том, что статические структуры инвариантных модельных представлений формируются как многослойные конструкции, организованные на основе законов цикличности, а существующие специализированные программные комплексы изначально не поддерживают такие регулярные многослойно-многомерные конструкции. Решение указанной проблемы возможно по трем направлениям:

-адаптация инфологического модельного представления предметной задачи к даталогическим конструкциям (компонентам) существующих программно-технических средств и сред (т.е. к замене многоуровневых конструкций одноуровневыми);

-разработка «надстройки», обеспечивающей возможность использования существующих программно-технических средств и сред для организации многоуровневых конструкций и алгоритмов на них;

-разработка принципиально новой модели организации данных, обеспечивающей представление многоуровневых и взаимоувязанных информационных конструкций и параллельную их обработку.

Решение в рамках первого направления, по сути, является усложнением процедур составления «заголовочных» описаний информационных конструкций при сохранении процедур обработки в существующих СУБД.

Решение в рамках второго направления связано с созданием «мета- СУБД», позволяющей описывать, хранить и обрабатывать многоуровневые конструкции данных в совокупности «одноуровневых» СУБД.

Решение в рамках третьего направления предполагает первоначальные исследования и анализ наиболее известных из существующих моделей данных, характеристика их особенностей и областей использования с целью выявления возможностей их применения в методологии автоматизации интеллектуального труда. Последующие исследования должны ответить на вопросы, связанные с математическим описанием новой модели данных и особенностей ее реализации в вычислительной среде.

Обзор моделей представления данных

Системы управления базами данными (СУБД) составляют важнейшую часть современных программных комплексов. Каждая СУБД поддерживает определенные способы описания данных и связей между ними, составляющих модель представления данных в конкретной реализации. Понятие модели данных СУБД, как правило, отражает особенности представления информации по двум направлениям:

- способ структурирования данных, которые рассматриваются как некоторая абстракция в отрыве от предметной области;

- инструмент описания концептуальной модели предметной области и динамики ее изменения в виде базы данных.

В данном изложении главный акцент сделан на первую часть этого понятия, то есть модель данных представляется в качестве формальной теории описания и обработки данных в СУБД, которая включает в себя три основных элемента:

- структура представления данных: методы отображения их типов и логических построений при описании предметной области;

- аспект целостности: методы описания и обеспечения в базе данных согласованной и непротиворечивой информации;

- методы манипулирования данными.

Кроме теоретических характеристик моделей представления данных в исследование включены практические пояснения и интерпретации особенностей построения СУБД каждого вида с учетом специфики их организации, вариантов конкретной реализации и прикладного использования.

Рассмотрим наиболее востребованные и перспективные на текущий момент времени технологии моделирования информации и данных [4,5.6]:

– реляционная модель данных (РМД);

– постреляционная модель данных (ПМД);

– объектно-ориентированная модель данных (ООМД);

– многомерная модель данных (ММД).

Анализ каждой модели данных выполнялся по следующим аспектам: ключевые понятия модели, особенности порождения и свойства структур данных, особенности обеспечения целостности и манипуляционные механизмы, а также различные процедуры обеспечивающих приведение структуры базы данных к виду с минимальной избыточностью хранимой информации.

Было выявлено, что ограниченность реляционной модели данных проявляется в следующих моментах:

- модель не предоставляет достаточных средств для представления смысла данных;

- трудности моделирования предметной области на основе плоских таблиц для многих приложений;

- модель не обеспечивает каких-либо средств для представления функциональных зависимостей;

- модель не предлагает какого-либо аппарата для разделения сущностей и связей.

Анализ работ, проведенных различными исследователями, показал, что существует ряд случаев, когда ограничения классической реляционной модели серьезно мешают эффективной реализации приложений. В основе этой проблемы лежат три аспекта: работа с полями переменной длины и группами записей; управление отношениями между таблицами и полями; отражение подлинно семантического содержания реальных структур, которые будут смоделированы в базе данных.

Если классическая реляционная модель предполагает атомарность данных, являющихся значениями атрибутов в кортежах, то постреляционная модель снимает ограничение атомарности. В ней в качестве значений атрибутов допускается использование многозначных, сложно структурированных объектов, значения которых состоят из нескольких элементов. Набор значений таких многозначных полей считается самостоятельной таблицей, встроенной в основную. Но поддержка такой модели требует от СУБД поддержки сложных структур – таких как вложенные таблицы или массивы, а также возможности динамической нормализации этих структур.

Постреляционные СУБД занимают промежуточное положение между объектно-ориентированными и многомерными базами данных, во многом определяя направления их последующего развития.

Возникновение объектно-ориентированной модели данных определялось прежде всего потребностями практики: необходимостью разработки сложных информационных прикладных систем, для которых предшествующие технологии были недостаточно удовлетворительными.

Кроме того, соответствующий методологический подход обеспечил развитие языков программирования с абстрактными типами данных и ориентацией на объектно-ориентированную технологию описания предметной области.

При наличии большого количества экспериментальных проектов и коммерческих ООСУБД отсутствует общепринятая объектно-ориентированная модель данных. И не потому, что нет ни одной формально полной модели, а по причине отсутствия общего согласия о принятии какой-либо модели. Наиболее важным новым качеством ООБД является поведенческий или функциональный аспект объектов.

В системах с традиционной организацией представления данных между структурной и функциональной частями существует принципиальный разрыв. Структурная часть системы поддерживалась всем аппаратом баз данных, ее можно было моделировать, верифицировать и т.д., а функциональная часть создавалась изолированно. В частности, отсутствовали формальный аппарат и системная поддержка совместного моделирования и гарантирования согласованности этих статической и динамической частей.

В среде ООБД проектирование, разработка и сопровождение прикладной системы становится процессом, в котором интегрируются структурный и функциональный аспекты. Конечно, для этого нужны специальные языки, позволяющие определять объекты и создавать на их основе прикладную систему.

Основные трудности объектно-ориентированного моделирования данных связаны с тем, что такого развитого математического аппарата, какой определен для реляционных моделей, не существует.

Были отмечены следующие важные особенности ООБД и реализованной в них модели представления данных:

- поддержка сложных объектов;

- поддержка индивидуальности объектов;

- поддержка инкапсуляции;

- поддержка типов и классов;

- поддержка наследования типов и классов от их предков;

- перегрузка в сочетании с полным связыванием; расширяемый набор типов данных.

Кодд сформулировал двенадцать основных принципов систем класса OLAP [4], важнейшие из которых связаны с возможностями концептуального представления и обработки многомерных данных. Построение многомерных баз данных (МБД) основано на трех основных аспектах: агрегируемость, историчность и прогнозируемость данных.

Было выявлено, что для МБД в настоящее время не существует единых общепринятых методов организации среды хранения данных. Была выделена совокупность наиболее характерных ее признаков:

- для обеспечения эффективного поиска запрашиваемых данных используется некоторая разновидность техники индексирования;

- данные хранятся в форме логически упорядоченных блоков, состоящих из групп записей одной или нескольких хранимых таблиц;

- индексная часть МБД не отделяется в виде самостоятельных структур от самих хранимых данных;

- модификация данных, как правило, не приводит к модификации индекса (отсюда – быстрота выполнения множественных операций обновления МБД);

- слабая зависимость времени обработки запросов от объема хранимых данных; необходимость заранее предусматривать возможные способы доступа к хранимым данным, при этом количество индексируемых измерений хранимой таблицы не может быть динамически изменено без ее перезагрузки.

В существующих МБД используются две основных схемы организации данных: поликубическая и гиперкубическая. Гиперкуб данных содержит одно или более измерений и представляет собой упорядоченный набор ячеек. В многомерной модели данных определяется ряд операций, позволяющих наиболее эффективно использовать достоинства многомерной модели данных. Среди таких можно выделить операции «среза», «вращения», «свертки и детализации» и «агрегации».

Эти особенности демонстрируют область наиболее предпочтительного использования многомерных баз данных как узкоспециализированных СУБД, предназначенных для интерактивной аналитической обработки информации.

По сравнению с реляционной моделью многомерная модель обладает более высокой наглядностью и информативностью при обработке большого количества накопленных данных, позволяя проводить как комплексный анализ информации, так и находить скрытые знания в совокупности статистических данных.

Особенно ярко достоинства МБД проявляются при выполнении многокритериальных запросов над практически неограниченными объемами данных в системах с критичным временем отклика. Главным недостатком многомерной модели данных является ее громоздкость при решении задач обычной оперативной обработки информации

Заключение

Решение задач автоматизации в рамках методологии автоматизации интеллектуального труда сводится к формированию взаимосвязанных семантических и синтаксических модельных представлений этих задач.

Анализ моделей представления данных в существующих СУБД показал, что использование их при автоматизации прикладных задач на основе методологии автоматизации интеллектуального труда достаточно трудоемко и требует существенных затрат на изменение модельных представлений этих задач.

Наличие проблемы отображения многоуровневых конструкций в существующие СУБД требует новых подходов к использованию информации и данных в компьютере на более высоком уровне, чем это было до сих пор.

Литература

1. Волкова Г.Д., Методология автоматизации проектно-конструкторской деятельности в машиностроении: Учебное пособие.- М.: Издательский центр МГТУ "Станкин".- 2000г., 81с.

2. Волкова Г.Д., Концептуальное моделирование предметных задач в машиностроении Учебное пособие: Учебное пособие.- М.: Издательский центр МГТУ "Станкин".- 2000г., 98с.

3. Волкова Г.Д., Новоселова О.В., Семячкова Е.Г. Проектирование прикладных автоматизированных систем в машиностроении: Учебное пособие.- М.: МГТУ «Станкин»,2002, -162с.

4. E.F. Codd, S.B. Codd, C.T. Salley. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. - E.F.Codd & Associates, 1993.

5. Кузнецов С.Д. Объектно-ориентированные базы данных - основные концепции, организация и управление: краткий обзор

6. Сахаров А.А. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server) //СУБД №3/1996