BC/NW 2003г., №1(3)/ 17.2

 


ОРГАНИЗАЦИЯ СМЫСЛОВОГО ПОИСКА В ИНТЕРНЕТ С ИСПОЛЬЗОВАНИЕМ МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ

 

 

Филипьев И. В.

 

 

(Москва, Московский Энергетический Институт (ТУ), Россия)

 

 

 

 

Традиционные информационно-поисковые системы, индексирующие гипертекстовые документы Интернет, несмотря на их постоянное развитие и расширение набора предоставляемых ими услуг, обладают рядом недостатков, связанных, прежде всего, с универсальностью их применения. Во-первых, лавинообразный рост количества слабоструктурированной информации, наполняющей сайты World Wide Web, обуславливает сложность работы с отчетами поисковых машин, которые порой содержат тысячи ссылок, большинство из которых не имеют прямого отношения к цели поиска.  Кроме того, поиск в данном случае представляет собой отбор документов на основе  частоты вхождения в них ключевых слов, составляющих запрос, то есть работают механизмы контекстного поиска, который в недостаточной степени затрагивает семантику документов, вследствие чего формализация цели поиска в виде набора ключевых слов превращается в непростую задачу. Еще одной проблемой, которую принципиально невозможно  решить с помощью применения обычных поисковых машин, является отсутствие обратной связи между результатами и запросом, которая позволила бы улучшить качество формируемого знания с помощью пошаговой процедуры уточнения целей поиска, состоящей из повторного использования некоторых параметров, полученных на предыдущих шагах и вариации других.

Все вышеперечисленные проблемы вызвали большой интерес к разработке иных подходов к организации информационного поиска в сети Интернет, в связи с чем появились публикации, касающиеся самых разных аспектов этой задачи, начиная с методов автоматизированного структурирования документов и заканчивая способами визуализации результатов поиска.

В данном докладе предлагается один подход к организации поиска, который подразумевает использование моделей представления предметной области и поискового пространства, которые могут изменяться в зависимости от результатов. Также рассматривается возможность использования дополнительной информации о документах (структура ссылок,  заголовки и т.д.), которая может быть использована для повышения точности. 

Сразу стоит оговориться, что не стоит рассматривать этот подход как универсальный способ автоматизировать процедуру смыслового информационного поиска, поскольку он предусматривает активное участие человека и предназначен, прежде всего, для повышения эффективности за счет локализации, то есть необходим значительный по трудоемкости этап настройки системы, которая работает в соответствии с предлагаемым подходом, на конкретную предметную область.

 

Итак, в процессе поиска необходимо перейти от представлений пользователя о предметной области, которую он избрал в качестве цели, и некоторой априорной информации о поисковом пространстве к модели, отражающей соответствие предметной области и ресурсов Интернет, применяя которую, пользователь мог бы обращаться к интересующим его документам.

В связи с этим предлагается проводить поиск в два этапа: подготовительный, на котором формируется база знаний о источниках информации Интернет, то есть получаются предварительные общие результаты, которые потом могут быть многократно использованы. На втором этапе обрабатывается запрос пользователя к этой базе, в ответ на который могут быть получены уже конкретные ссылки на документы и некоторые дополнительные результаты, как то: релевантность, индекс цитируемости (частота, с которой в других документах из базы встречаются ссылки на данную страницу) и др.

Исходными данными для осуществления первого этапа являются модели предметной области и поискового пространства, представленные в виде неоднородных бинарных семантических сетей.

Узлами семантической сети, соответствующей предметной области, являются понятия, которые пользователь выделил как наиболее точно описывающие цели поиска, а также некоторые атрибуты, соответствующие этим понятиям. Узлы-понятия связывают отношения типа “часть-целое”, а также логические связи (И, ИЛИ, НЕ), которые рассматриваются относительно классовых. Например, понятию “системный блок компьютера” в частности соответствуют раскрывающие понятия “корпус” и “материнская плата”, объединенные отношением “И”, а понятию “монитор” соответствуют “ЭЛТ-монитор” и “LCD-монитор”, объединенные отношением “ИЛИ”. Такая организация позволит достаточно просто применить теоретико-множественный аппарат, а также упрощает взаимодействие с общедоступными поисковыми машинами, которые работают с запросами, построенными как раз с использованием логических функций. Связи типа “свойство-значение” объединяют основные понятия и их атрибуты, такие как: список ключевых слов, приоритет при поиске, предположения пользователя о способе поиска документов для данного понятия (например, использование индексирующей поисковой машины или просмотр конкретно указанного сайта), комментарии, которые раскрывают смысл понятия, чтобы результатами поиска мог легко воспользоваться другой человек, в частности, здесь могут использоваться примеры элементов класса: “команда процессора – mov”. В качестве еще одного преимущества подобного представления предметной области можно назвать возможность отсутствия некоторых свойств для какого-либо узла. Кроме того, можно определить несколько атрибутов одного типа и связывать  их логическими отношениями, которые в этом случае уже будут рассматриваться относительно узла-понятия, к которому эти атрибуты относятся. Например, примеры “млекопитающего” – это “собака” И “дельфин”.

Основой семантической сети, которая соответствует поисковому пространству, являются URL, объединенные в узлы-группы по признаку  отношения их содержимого к одной тематике. Среди таких узлов выделяются активные, в которых записаны URL поисковых машин, правила написания запросов и извлечения ссылок. Узлы-группы объединены связями, формализующими близость семантики документов, их составляющих. Также в модели присутствуют такие атрибуты, как вербальное описание тематики узла-группы, набор подходящих ключевых слов, приоритет при поиске, оценка пользователем релевантности данной группы теме поиска и т.д.

После формирования вышеозначенных исходных данных можно приступать к созданию предварительной базы знаний следующим образом. В порядке приоритета рассматриваются узлы модели предметной области, и для каждого определяется способ поиска, в зависимости от которого либо отправляется запрос той или иной общедоступной поисковой машине, либо ищется подходящий узел-группа в модели поискового пространства. Дальнейшее поведение системы зависит от выбранной стратегии. В самом простом случае адреса страниц из выбранного узла-группы или из отчета поисковой машины просто приписываются рассматриваемому узлу-понятию. Можно также попытаться расширить область поиска с помощью анализа дополнительной информации, получаемой в ходе поиска. Во-первых, есть возможность проанализировать текст страницы, либо заголовки на пример вхождения нужных ключевых слов или фразы, которая определяет название узла-понятия. Также ценной информацией является структура ссылок, находящихся в документе, попавшем под рассмотрение. Последовательно передвигаясь по ним, можно найти URL, которые изначально не содержались в модели поискового пространства. Здесь следует применять эффективную процедуру смыслового анализа текста, чтобы не “засорить” результирующую предварительную базу знаний. В простейшем случае следует просить оценить релевантность документа пользователя и не продвигаться в тех направлениях, в которых эта релевантность убывает.

Таким образом, в модели предметной области после проведения поиска окажется новый тип атрибута – URL, соответствующие узлам-понятиям, а структура модели может быть изменена в соответствии с результатами поиска, в частности при совпадении наборов URL, соответствующих нескольким узлам, данные узлы могут быть объединены. А модель поискового пространства модифицируется в соответствии с результатами работы поисковых машин Интернет, продвижения по ссылкам и с помощью оценок релевантности содержимого документов той или иной теме.

Второй этап работы системы – это эксплуатация полученной предварительной базы знаний. Здесь пользователь может обращаться к системе с ключевыми словами, которые используются для поиска узлов-понятий в модели представления знаний. Также он может напрямую обращаться к семантической сети и выбрать интересующие его узлы. Кроме того, база может работать и на обратный вывод: пользователь может задать URL, по которому будет найден узел, а в качестве ответа получит ссылки на документы, похожие по содержанию на начальный адрес.

 

Данный подход предназначен для проведения точного поиска гипертекстовых страниц с применением смыслового анализа. Но, как и всегда, точность может быть достигнута только за счет уменьшения полноты, поскольку даже полностью автоматизированная поисковая машина не охватывает все огромное количество документов, составляющих информационные ресурсы Интернет.

Автор доклада приступил к реализации данного подхода на основе использования спецификации XML для организации хранения слабоструктурированных знаний, относящихся к предметной области и поисковому пространству. Эта спецификация была избрана как широко известная, легко расширяемая и поддерживаемая многими платформами.

 

ЛИТЕРАТУРА

 

1.                       Гаврилова Т.А. Хорошевский В.Ф. Базы знаний интеллектуальных систем. -  Спб.: Питер, 2001.-384 с.: ил.

2.                       Extensible Markup Language (XML). W3C Recommendation. – http://www.w3.org/TR/1998/REC-xml-19980210