BC/NW 2014 №1 (24):6.2
АЛГОРИТМИЗАЦИЯ ПОСТРОЕНИЯ БАЗЫ ЗНАНИЙ МАТЕРИАЛЬНЫХ И ИНФОРМАЦИОННЫХ ПРОДУКТОВ
Пименов И.В.
Рассматриваются вопросы обработки информации, получаемой методами многомерного анализа данных, для построения распознающих баз знаний.
ВВЕДЕНИЕ
Широкий спектр изделий и комплексов в любой сфере жизнедеятельности людей определяются через формальные качества. Изделия, тем более системы, часто являются сложными по составу, структуре и функциям, а, соответственно, имеют множество характеристик, описывающих образ объекта, его назначение, конструкцию, эстетическую ценность, эргономичность и т.д. Данные о таких объектах представляются в базе данных (БД) записями типа “объект-атрибуты-значение”.
Упорядочение данных и поиск образца с подходящими параметрами могут выполняться на основе построения интеллектуальных баз данных (ИБД), содержащих как систематизированное описание характеристик объектов, так и правила получения неявных знаний. ИБД позволяют алгоритмизировать процесс поиска прототипа для современных проектных решений и формировать их сжатое морфологическое описание [1].
1. МЕТОДИКА ПРИМЕНЕНИЯ МЕТОДОВ МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ
Достигающий цели пространственно-временной процесс проектирования изделия опирается зачастую на неформализованные, неявные знания субъекта. Эти знания зафиксированы в изготовленных образцах объектов. Зачастую изделие обладает признаками сложной системы: многомерностью свойств, недостаточностью информации для описания взаимосвязей элементов объекта дизайна. При описании концептов, раскрывающих проектное решение, применяются разнотипные шкалы: наименее мощная – номинальная шкала (цвет, фасон), ординальная шкала для выражения предпочтений экспертов, шкала отношений для обмерных характеристик. Многие понятия являются трудноизмеримыми, например, интерактивность сайта, характер эмоциональности дизайна, свойства декоративных элементов.
Ввиду многомерности задачи осуществить умозрительно работу по систематизации правил, полностью описывающих динамическую функциональную структуру базы знаний, представляется невозможным.
Целью работы является разработка методики и алгоритмов для автоматизации построения ИБД, содержащей неявные правила и закономерности.
1.1. Подготовка данных
Для обеспечения численного представления качественных атрибутов номинальные и порядковые переменные преобразуют к бинарному типу, со значениями “0” или “1”. Фиктивные признаки нужны для обеспечения численного представления качественных атрибутов, позволяя, например, интерпретировать частные коэффициенты регрессии. При подготовке к анализу фиктивных переменных указывается на одну меньше, чем имеется категорий в исходной переменной – обычно не включается в рассмотрение дихотомия для той категории, в которой имеется наименьшее количество наблюдений.
1.2. Выявление классов и сжатие признакового пространства
Разбиение выборки посредством кластерного анализа на группы схожих объектов позволяет не только установить стратификационную структуру рассматриваемого набора изделий, выявить основные признаки, по которым различаются классы, найти центроиды классов, но также построить в каждой выделенной группе собственную модель взаимосвязей, учитывающую индивидуальные особенности группы.
Сжатие признакового пространства выполняется в два этапа. Сначала методами главных компонент, кластеризации переменных и дискриминантного анализа последовательно определяются подгруппы исходных признаков, проявляющих большую разделяющую силу.
На втором этапе выполняется дискриминантный анализ на объединенном множестве отобранных подгрупп признаков.
Дискриминирующая сила отдельного признака зависит от подсистемы совместно используемых признаков. Поэтому, ввиду нарушения принципа аддитивности при рассмотрении вклада переменных в их совместную разделяющую силу, ранжировку признаков следует выполнять не по значениям коэффициентов первых дискриминантных функций, а по росту накопленной части безошибочных разделений объектов. Указывается ранг, задающий количество признаков рабочего словаря NР, достаточных для разделения 90–95% объектов выборки.
Результаты дискриминантного анализа не могут в явном виде представлять совокупность правил, которыми должна быть снабжена ИБД, поскольку не содержат сведений о порядке индуктивного логического вывода на основе заданных значений показателей.
Для алгоритмизации процедуры построения поля знаний можно использовать решающую матрицу [2], содержащую значения бинарных признаков для различных классов. Такая форма решающего правила может автоматически транслироваться в поле знаний.
2. АЛГОРИТМ ПОСТРОЕНИЯ БАЗЫ ЗНАНИЙ
Алгоритм формирования решающего правила заключается в построении и заполнении ряда таблиц по результатам кластерного и дискриминантного анализов.
Бинарная решающая матрица (БРМ) строится для априорного словаря, упорядоченного по убыванию информативности бинарных признаков (табл. 1).
Таблица 1. Бинарная решающая матрица
Принадлежность рабочему словарю XР. Исходная переменная. Бинарный признак. Ранг признака |
Класс |
||||||
W1 |
W2 |
… |
WM |
||||
1 |
XNA |
XT |
1 |
0 |
1 |
… |
1 |
1 |
X1 |
X1 |
2 |
1 |
0 |
|
1 |
… |
… |
… |
… |
… |
… |
… |
… |
0 |
Xj |
Xk |
r |
1 |
0 |
… |
1 |
… |
… |
… |
… |
… |
… |
… |
… |
0 |
X1 |
X2 |
T |
0 |
1 |
|
0 |
Множество бинарных признаков, образующих априорный словарь (общее число дихотомий):
,
где tj – число категорий (уровней, интервалов кодирования) исходной переменной X j.
Алгоритм заполнения элементов БРМ Xk(m), k = , m = , заключается в установке единичных значений Xk(m) при наличии бинарного признака Xk у объектов класса Wm , либо в случае принадлежности значений количественного признака Xj объектов класса Wm интервалу кодирования с номером t , где k = t1+t2+…+tj-1+t, tj – число уровней (интервалов кодирования) признака X j.
3. ЛОГИЧЕСКИЙ ВЫВОД И ИНТЕРПРЕТАЦИЯ ПРАВИЛ, НАЙДЕННЫХ ПРИ МНОГОМЕРНОМ АНАЛИЗЕ ДАННЫХ
В процессе логического вывода устанавливаются единичные значения для кодов классов, находящихся в рабочей памяти: из БРМ выбирается строка и выполняется поэлементная конъюнкция с ячейками рабочей памяти. Установленные единичные значения указывают на претендентов для дальнейшего рассмотрения. Очередной признак последовательно уточняет множество возможных решений.
Для найденного объекта характерного типа дается морфологическое описание – перечисляются названия номинальных (интервальных) признаков и их типичные значения.
Также для выбранного кластера указываются количество образцов и их локальные особенности, отражающие специфику кластера. С этой целью анализируется фрагмент матрицы для всех объектов одного кластера.
ЗАКЛЮЧЕНИЕ
База знаний, сформированная в процессе обработки результатов многомерного анализа данных, включает знания как декларативного, так и процедурного типов. Декларативная часть содержит знания о структуре предметной области, морфологии объектов и разделительной силе их признаков. Процедурная же часть реализуется как универсальный алгоритм обработки БРМ, использующий вводимые пользователем интеллектуальной системы значения признаков.
Функции, которые может выполнять интеллектуальная система:
- нахождение решения (образца, прототипа) без перебора значений всех признаков;
- умение распознавать сходство ситуации с прошлым опытом (рассуждение с проведением аналогий);
- оптимизация запросов БД (отбор наиболее эффективного пути следования запросов выполняется на основе знаний об информативности признаков);
- описание локальных особенностей выбранного морфологического типа, представленных набором входных признаков небольшой размерности для соответствующего кластерного решения.
СПИСОК ЛИТЕРАТУРЫ
1. Пименов И. В. Программный комплекс интеллектуальной поисковой системы, основанной на знаниях в области дизайна. – Вестник молодых ученых СПГУТД. – Вып. 1: Естественные и технические науки. – 2013. – с. 47–51.
2. Пименов В.И., Ипатов О.С. Разработка обучающих систем по дисциплинам технологического цикла на основе методов интеллектуального анализа данных. – Вестник компьютерных и информационных технологий. – 2009. – № 9. – С. 38–44.