(Москва, Московский энергетический институт (ТУ), Россия)
Выделены
методы поиска информации, представленной графами. Методы основаны на определении
сходства графов и их структурных инвариантов. Для быстрого и наиболее точного
поиска по сходству предложена обобщённая иерархическая модель анализа сложности
графов в монотонно расширяемых базисах структурных дескрипторов. Модель
позволяет учитывать расположение фрагментов и обобщает известные методы
характеризации графов.
Анализ методов поиска в
информационно-поисковых системах структурной информации (ИПССИ) приводит к
выделению двух основных подходов:
1. Методы, основанные на точной структурной характеризации
графов:
1.1. Полная (установление изоморфизма графов).
1.2. Частичная (установление изоморфного вложения (не вложения)).
1.3. Подструктурная (определение максимального изоморфного пересечения
графов).
1.4. Надструктурная (определение максимального изоморфного пересечения
надграфов исходных графов).
2. Методы, основанные на приближённой структурной
характеризации:
2.1. Полная
(с точностью до IN-эквивалентности графов).
2.2. Частичная
(с точностью до IN-эквивалентного вложения
графов).
2.3. Подструктурная (с точностью до IN-эквивалентного
пересечения).
2.4. Надструктурная (с точностью до IN-эквивалентного
пересечения надграфов исходных графов).
Успех разработки новых ИПССИ
зависит от развития теории сходства графовых моделей систем (ГМС) и разработки
эффективных алгоритмов поиска одного или всех общих фрагментов во всех разновидностях поиска общих
фрагментов ГМС и их структурных инвариантов (g-моделей) [1,2].
Рассмотрим пример анализа
сходства по методу, основанному на точной структурной характеризации графов. В
методе используются g-модели
SHPlScwÍPlScw(G),
называемые цветными графами цепей-подграфов (ЦГЦП).
Примеры ЦГЦП для трёх графов
приведены на рис. 1.
G1 |
G2 |
G3 |
ЦГЦП для
G1 |
ЦГЦП для
G2 |
ЦГЦП для
G3 |
Рис. 1. Диаграммы графов и их
цветных графов расположения цепей
Алгоритм построения ЦГЦП для графа G
включает 7 шагов:
1. Исходный граф G является цветным ГЦП для цепей длины 0.
2. Для графа G cтроим 1-гомеоморфное расширение и получаем цветной ГЦП длины 1. Новые вершины viÎVP1 отображают цепи длины 1 в графе G.
3. Каждую пару новых вершин vi,vj соединяем новым ребром {vi,vj}, если ГviÇГvj ¹Æ.
4. Объединение цепей, соответствующих новым вершинам, порождает цепь-подграф в исходном графе G на 1 большей длины, чем длины объединяемых цепей.
5. Строим 1-гомеоморфное расширение новых ребер, порождая новые вершины, как цепи-подграфы длины 2 исходного графа G.
6. Повторяем выполнение п.3 и п.4 до тех пор, пока порождаются новые ребра, соответствующие цепям-подграфам исходного графа G.
7. Вершинам построенного графа приписываем цвет, номер которого соответствует длине цепи. В результате, построена g-модель HPlScwÍPlScw(G).
Аналогично строятся цветные
графы цепей (ЦГЦ).
Определяя максимальное
изоморфное пересечение ЦГЦП (MCS)
или ЦГЦ (MCF) для каждой пары
анализируемых графов, получаем два варианта вычисления расстояний и два
варианта вычисления коэффициентов сходства:
• d1(G1,G2) =úV(HPlScwÍPlScw(G1))ê+úV(HPlScwÍPlScw(G1))ê - 2úV(MCS)ê;
• d2(G1,G2) =úV(HPlcwÍPlcw(G1))ê+úE(HPlcwÍPlcw(G1))ê+úV(HPlcwÍPlcw(G2))ê+
+úE(HPlcwÍPlcw(G2))ê- 2(úV(MCF)ê+úE(MCF)ê);
• MSI1(G1,G2) =ú MCS(HPlScwÍPlScw(G1),HPlScwÍPlScw(G2))ê2 /úF1(G1)×F1(G2)ê;
• MSI2(G1,G2) =ú MCF(HPlcwÍPlcw(G1),HPlcwÍPlcw(G2))ê2 /úF2(G1)×F2(G2)ê,
где
F1 (F2) - число вершин (сумма числа вершин и рёбер) в ЦГЦП (ЦГЦ).
Для графов G1- G3 получим результаты,
приведенные в табл. 1 (значения d1,d2 под главной диагональю, а значения MSI1, MSI2 -
над диагональю).
Таблица 1
Цепи - подграфы (MSI1) |
Цепи (MSI2) |
||||||||||||||
|
G1 |
G2 |
G3 |
|
ЦГЦ 1
|
ЦГЦ 2 |
ЦГЦ 3 |
|
G1 |
G2 |
G3 |
|
ЦГЦ 1
|
ЦГЦ 2 |
ЦГЦ 3 |
G1 |
0 |
0,64 |
0,36 |
ЦГЦ 1 |
0 |
0,53 |
0,48 |
G1 |
0 |
0,79 |
0,61 |
ЦГЦ 1 |
0 |
0,76 |
0,51 |
G2 |
2 |
0 |
0,64 |
ЦГЦ 2 |
8 |
0 |
0,69 |
G2 |
2 |
0 |
0,79 |
ЦГЦ 2 |
9 |
0 |
0,65 |
G3 |
4 |
2 |
0 |
ЦГЦ 3 |
9 |
5 |
0 |
G3 |
4 |
2 |
0 |
ЦГЦ 3 |
19 |
13 |
0 |
Переходя последовательно от ЦГЦ длины 0 к длине q, а затем к
g-моделям, учитывающим
расположение более сложных по индексам сложности фрагментов (например,
деревья-подграфы и т.д.), получим универсальный метод для иерархического
анализа сходства ГМС, с последовательным уточнением результатов. Данный метод
включает в качестве частных случаев все 4 метода, образующие первый подход к
методам поиска.
В табл. 2 приведены примеры
матричного представления расширенной b-модели PlScwÍPScw для G2
и b-модели VlÍPScw для HPlcwÍPlcw(G2) [2].
Таблица
2
PlScwÍPlSc |
P0 |
P1 |
P2 |
P3 |
|
Irc(fi t) |
Irc(f t(c)) |
Irc(f t) |
|
VlÍPlSc |
P0 |
P1 |
P2 |
P3 |
P4 |
|
Irc(fi t) |
Irc(f t(c)) |
|||||||||||
2 |
1 |
2 |
2 |
0 |
|
0,057 |
0,057 |
0,392 |
|
2 |
1 |
2 |
6 |
10 |
10 |
|
0,0648 |
0,0648 |
|||||||||||
1 |
1 |
3 |
1 |
0 |
0,050 |
0,050 |
|
1 |
1 |
3 |
10 |
8 |
4 |
0,0350 |
0,0350 |
||||||||||||||
5 |
1 |
1 |
1 |
2 |
0,110 |
0,110 |
|
5 |
1 |
1 |
2 |
4 |
8 |
0,0451 |
0,0451 |
||||||||||||||
3,4 |
1 |
1 |
2 |
1 |
0,087 |
0,174 |
|
3,4 |
1 |
1 |
3 |
5 |
11 |
0,0613 |
0,1225 |
||||||||||||||
12 |
0 |
1 |
3 |
0 |
0,056 |
0,056 |
0,314 |
6 |
1 |
5 |
10 |
10 |
2 |
0,0285 |
0,0285 |
||||||||||||||
25 |
0 |
1 |
1 |
2 |
0,101 |
0,101 |
|
9 |
1 |
3 |
4 |
8 |
12 |
0,0710 |
0,0710 |
||||||||||||||
13,14 |
0 |
1 |
2 |
1 |
0,079 |
0,157 |
|
7,8 |
1 |
4 |
5 |
11 |
15 |
0,0901 |
0,1802 |
||||||||||||||
314 |
0 |
0 |
1 |
0 |
0,016 |
0,016 |
0,217 |
13 |
1 |
2 |
6 |
6 |
14 |
0,0784 |
0,0784 |
||||||||||||||
213,214 |
0 |
0 |
1 |
1 |
0,054 |
0,108 |
|
10,11 |
1 |
3 |
8 |
10 |
13 |
0,0802 |
0,1604 |
||||||||||||||
125 |
0 |
0 |
1 |
2 |
0,093 |
0,093 |
|
12 |
1 |
4 |
8 |
6 |
14 |
0,0795 |
0,0795 |
||||||||||||||
3125,4125 |
0 |
0 |
0 |
1 |
0,039 |
0,077 |
0,077 |
14,15 |
1 |
2 |
5 |
12 |
10 |
0,0672 |
0,1345 |
||||||||||||||
Slw |
5 |
12 |
20 |
14 |
51 |
1 |
1 |
Slw |
15 |
40 |
88 |
128 |
162 |
433 |
1 |
||||||||||||||
Sw |
1 |
3 |
5 |
7 |
|
16 |
a(P0/P)=1 |
|
Sw |
1 |
2 |
2 |
2 |
2 |
|
9 |
a(P0/P)=1 |
||||||||||||
WF |
5 |
4 |
4 |
2 |
15 |
a(P1/P)=1 |
WF |
15 |
20 |
44 |
64 |
81 |
224 |
a(P1/P)=1 |
|||||||||||||||
ISC(Pj) |
1 |
3 |
9 |
31 |
44 |
a(P2/P)=1 |
ISC(Pj) |
1 |
3 |
9 |
31 |
106 |
150 |
a(P2/P)=1 |
|||||||||||||||
V_ISC |
5 |
12 |
36 |
62 |
115 |
a(P3/P)=1 |
V_ISC |
15 |
60 |
396 |
1984 |
8586 |
11041 |
a(P3/P)=1 |
|||||||||||||||
Применение b-моделей позволяет провести иерархический анализ
сходства графов в методах поиска второго подхода с последовательным уточнением результатов по
каждому из двух следующих направлений исследований:
1. Индекс (ISC), вектор-индекс (V_ISC), матрица b-модели (M_Irc);
2. Вектор-индекс вкладов Irc(f t), Irc(f t(c)), Irc(fi t), матрица M_Irc.
Вычисление максимального изоморфного пересечения
(МИП) для каждой пары b-моделей в стратифицированной
системе b-моделей, например
PlwÍPw |
® |
PlSwÍPw |
® |
PlSwÍPSw |
® |
PlScwÍPSw |
® |
PlScwÍPScw |
® |
PlScwÍPScw, |
приводит к возможности
исследования тенденций изменения сходства
графов ещё по трём направлениям стратификации
самой b-модели: (1) монотонное расширение базисов СД; (2) монотонное
расширение типов фрагментов; (3) монотонное расширение как базисов, так и типов
фрагментов графа.
В табл. 3 приведены значения
расстояний по всем парам графов G1-G3
с
использованием ISC, V_ISC и
матриц M_Irc для b-моделей PlcwÍPcw при монотонном наращивании
базиса СД от двух (P0-1) до четырех (P0-4) элементов.
Таблица 3
|
ISC |
V_ISC |
M_Irc |
|||||||||
Пары |
P0-1 |
P0-2 |
P0-3 |
P0-4 |
P0-1 |
P0-2 |
P0-3 |
P0-4 |
P0-1 |
P0-2 |
P0-3 |
P0-4 |
G1,G2 |
0 |
18 |
44 |
44 |
0 |
18 |
80 |
80 |
210 |
2478 |
8058 |
8058 |
G1,G3 |
0 |
27 |
35 |
141 |
0 |
27 |
89 |
195 |
1260 |
10899 |
27639 |
49899 |
G2,G3 |
0 |
9 |
9 |
97 |
0 |
9 |
9 |
115 |
630 |
3465 |
9045 |
38725 |
Построение графов сходства расположения фрагментов
и определение их
МИП для каждой пары
анализируемых графов делает возможным исследование сходства графов с учётом сходства расположения фрагментов заданного
типа. На рис.1 приведен пример графа сходства расположения цепей для G2, построенный на основе b-модели VlÍPSc для HPlScwÍPSc(G2).
Рис. 1. Граф сходства расположения цепей в G2 для расстояний не больших 0,4.
ЛИТЕРАТУРА
1. Кохов В.А. Методы анализа сходства систем с учетом расположения
фрагментов. Тезисы докладов международной конференции «Информационные средства
и технологии», МФИ-2003, Т1, Москва, МЭИ, 2003. – С.213-215.
2. Кохов В.А. Граф-модели в структурном спектральном анализе систем.
Тезисы докладов международной конференции «Информационные средства и
технологии», МФИ-2004, Т1, Москва, МЭИ, 2004. – С.211-214.