BC/NW 2003г., №1(3)/ 17.2
ОРГАНИЗАЦИЯ СМЫСЛОВОГО ПОИСКА В ИНТЕРНЕТ С ИСПОЛЬЗОВАНИЕМ МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ
Филипьев
И. В.
(Москва, Московский Энергетический Институт (ТУ), Россия)
Традиционные
информационно-поисковые системы, индексирующие гипертекстовые документы Интернет,
несмотря на их постоянное развитие и расширение набора предоставляемых ими
услуг, обладают рядом недостатков, связанных, прежде всего, с универсальностью
их применения. Во-первых, лавинообразный рост количества слабоструктурированной
информации, наполняющей сайты World Wide Web, обуславливает сложность работы с отчетами
поисковых машин, которые порой содержат тысячи ссылок, большинство из которых
не имеют прямого отношения к цели поиска.
Кроме того, поиск в данном случае представляет собой отбор документов на
основе частоты вхождения в них ключевых
слов, составляющих запрос, то есть работают механизмы контекстного поиска,
который в недостаточной степени затрагивает семантику документов, вследствие
чего формализация цели поиска в виде набора ключевых слов превращается в
непростую задачу. Еще одной проблемой, которую принципиально невозможно решить с помощью применения обычных
поисковых машин, является отсутствие обратной связи между результатами и
запросом, которая позволила бы улучшить качество формируемого знания с помощью
пошаговой процедуры уточнения целей поиска, состоящей из повторного
использования некоторых параметров, полученных на предыдущих шагах и вариации
других.
Все вышеперечисленные
проблемы вызвали большой интерес к разработке иных подходов к организации
информационного поиска в сети Интернет, в связи с чем появились публикации,
касающиеся самых разных аспектов этой задачи, начиная с методов
автоматизированного структурирования документов и заканчивая способами
визуализации результатов поиска.
В данном докладе
предлагается один подход к организации поиска, который подразумевает
использование моделей представления предметной области и поискового
пространства, которые могут изменяться в зависимости от результатов. Также
рассматривается возможность использования дополнительной информации о
документах (структура ссылок, заголовки
и т.д.), которая может быть использована для повышения точности.
Сразу стоит оговориться, что
не стоит рассматривать этот подход как универсальный способ автоматизировать
процедуру смыслового информационного поиска, поскольку он предусматривает
активное участие человека и предназначен, прежде всего, для повышения
эффективности за счет локализации, то есть необходим значительный по
трудоемкости этап настройки системы, которая работает в соответствии с
предлагаемым подходом, на конкретную предметную область.
Итак, в процессе поиска
необходимо перейти от представлений пользователя о предметной области, которую
он избрал в качестве цели, и некоторой априорной информации о поисковом
пространстве к модели, отражающей соответствие предметной области и ресурсов
Интернет, применяя которую, пользователь мог бы обращаться к интересующим его
документам.
В связи с этим предлагается
проводить поиск в два этапа: подготовительный, на котором формируется база
знаний о источниках информации Интернет, то есть получаются предварительные
общие результаты, которые потом могут быть многократно использованы. На втором
этапе обрабатывается запрос пользователя к этой базе, в ответ на который могут
быть получены уже конкретные ссылки на документы и некоторые дополнительные
результаты, как то: релевантность, индекс цитируемости (частота, с которой в
других документах из базы встречаются ссылки на данную страницу) и др.
Исходными данными для осуществления
первого этапа являются модели предметной области и поискового пространства,
представленные в виде неоднородных бинарных семантических сетей.
Узлами семантической сети,
соответствующей предметной области, являются понятия, которые пользователь выделил
как наиболее точно описывающие цели поиска, а также некоторые атрибуты,
соответствующие этим понятиям. Узлы-понятия связывают отношения типа
“часть-целое”, а также логические связи (И, ИЛИ, НЕ), которые рассматриваются
относительно классовых. Например, понятию “системный блок компьютера” в
частности соответствуют раскрывающие понятия “корпус” и “материнская плата”,
объединенные отношением “И”, а понятию “монитор” соответствуют “ЭЛТ-монитор” и
“LCD-монитор”, объединенные отношением “ИЛИ”. Такая организация позволит
достаточно просто применить теоретико-множественный аппарат, а также упрощает
взаимодействие с общедоступными поисковыми машинами, которые работают с
запросами, построенными как раз с использованием логических функций. Связи типа
“свойство-значение” объединяют основные понятия и их атрибуты, такие как:
список ключевых слов, приоритет при поиске, предположения пользователя о
способе поиска документов для данного понятия (например, использование
индексирующей поисковой машины или просмотр конкретно указанного сайта),
комментарии, которые раскрывают смысл понятия, чтобы результатами поиска мог
легко воспользоваться другой человек, в частности, здесь могут использоваться
примеры элементов класса: “команда процессора – mov”. В качестве еще одного преимущества
подобного представления предметной области можно назвать возможность отсутствия
некоторых свойств для какого-либо узла. Кроме того, можно определить несколько
атрибутов одного типа и связывать их
логическими отношениями, которые в этом случае уже будут рассматриваться
относительно узла-понятия, к которому эти атрибуты относятся. Например, примеры
“млекопитающего” – это “собака” И “дельфин”.
Основой семантической сети,
которая соответствует поисковому пространству, являются URL,
объединенные в узлы-группы по признаку
отношения их содержимого к одной тематике. Среди таких узлов выделяются
активные, в которых записаны URL поисковых машин, правила
написания запросов и извлечения ссылок. Узлы-группы объединены связями,
формализующими близость семантики документов, их составляющих. Также в модели
присутствуют такие атрибуты, как вербальное описание тематики узла-группы,
набор подходящих ключевых слов, приоритет при поиске, оценка пользователем
релевантности данной группы теме поиска и т.д.
После формирования
вышеозначенных исходных данных можно приступать к созданию предварительной базы
знаний следующим образом. В порядке приоритета рассматриваются узлы модели
предметной области, и для каждого определяется способ поиска, в зависимости от
которого либо отправляется запрос той или иной общедоступной поисковой машине,
либо ищется подходящий узел-группа в модели поискового пространства. Дальнейшее
поведение системы зависит от выбранной стратегии. В самом простом случае адреса
страниц из выбранного узла-группы или из отчета поисковой машины просто
приписываются рассматриваемому узлу-понятию. Можно также попытаться расширить
область поиска с помощью анализа дополнительной информации, получаемой в ходе
поиска. Во-первых, есть возможность проанализировать текст страницы, либо
заголовки на пример вхождения нужных ключевых слов или фразы, которая
определяет название узла-понятия. Также ценной информацией является структура
ссылок, находящихся в документе, попавшем под рассмотрение. Последовательно
передвигаясь по ним, можно найти URL, которые изначально не
содержались в модели поискового пространства. Здесь следует применять
эффективную процедуру смыслового анализа текста, чтобы не “засорить”
результирующую предварительную базу знаний. В простейшем случае следует просить
оценить релевантность документа пользователя и не продвигаться в тех
направлениях, в которых эта релевантность убывает.
Таким образом, в модели
предметной области после проведения поиска окажется новый тип атрибута – URL,
соответствующие узлам-понятиям, а структура модели может быть изменена в
соответствии с результатами поиска, в частности при совпадении наборов URL,
соответствующих нескольким узлам, данные узлы могут быть объединены. А модель
поискового пространства модифицируется в соответствии с результатами работы
поисковых машин Интернет, продвижения по ссылкам и с помощью оценок
релевантности содержимого документов той или иной теме.
Второй этап работы системы –
это эксплуатация полученной предварительной базы знаний. Здесь пользователь
может обращаться к системе с ключевыми словами, которые используются для поиска
узлов-понятий в модели представления знаний. Также он может напрямую обращаться
к семантической сети и выбрать интересующие его узлы. Кроме того, база может
работать и на обратный вывод: пользователь может задать URL, по
которому будет найден узел, а в качестве ответа получит ссылки на документы,
похожие по содержанию на начальный адрес.
Данный подход предназначен
для проведения точного поиска гипертекстовых страниц с применением смыслового
анализа. Но, как и всегда, точность может быть достигнута только за счет
уменьшения полноты, поскольку даже полностью автоматизированная поисковая
машина не охватывает все огромное количество документов, составляющих
информационные ресурсы Интернет.
Автор доклада приступил к
реализации данного подхода на основе использования спецификации XML для
организации хранения слабоструктурированных знаний, относящихся к предметной
области и поисковому пространству. Эта спецификация была избрана как широко известная,
легко расширяемая и поддерживаемая многими платформами.
ЛИТЕРАТУРА
1.
Гаврилова
Т.А. Хорошевский В.Ф. Базы знаний интеллектуальных систем. - Спб.: Питер, 2001.-384 с.: ил.
2.
Extensible Markup Language (XML). W3C
Recommendation. – http://www.w3.org/TR/1998/REC-xml-19980210