Вычислительные сети, теория и практика.

ОРГАНИЗАЦИЯ СОГЛАСОВАННОГО ПОИСКА В ИНТЕРНЕТ С ИСПОЛЬЗОВАНИЕМ АДАПТИВНЫХ ПОИСКОВЫХ АГЕНТОВ.

И.В.Филипьев

(Москва, Московский энергетический институт (технический университет), Россия)

Лавинообразный рост числа информационных источников, постоянно сопровождающий развитие Интернет в течение уже полутора десятков лет с момента появления WWW, появление новых сервисов, протоколов, увеличение количества подключенных точек доступа, растущая вычислительная мощность компьютеров и пропускной способности каналов, рано или поздно должны были привести к качественным изменениям в наборе тех возможностей, которые всемирная сеть предлагает пользователю. Но, несмотря на эти новые возможности, Интернет (а точнее WWW) чаще всего используется как огромный информационный источник, и с увеличением объема представленной информации постоянно актуальной задачей является усовершенствование механизмов информационного поиска. Причем к традиционным проблемам неполноты источников информации и сложности получения результатов поиска с высокой степенью соответствия ожиданиям пользователя – релевантности. Традиционно, объектом информационного поиска с помощью индексирующих поисковых машин является Web-страница, которая согласно некоторой оценочной функции соответствует запросу, однако что положительно сказывается в одном случае (скажем, при поиске некоторой новостной информации или при поиске описаний какого-либо товара), не совсем подходит для решения более комплексных задач, связанных, к примеру, со сбором информации на некоторую слабоосвещенную или новую тему, поскольку в этом случае пользователю по прежнему приходится брать на себя львиную долю рутинной работы по “отсеву” информационных источников и причин тому несколько: накладывает свой отпечаток архитектура WWW, подразумевающая слабую структуризацию информации, представленной на сайте (точнее, это дается на откуп авторам) и слабое отделение информации, несущей смысловую нагрузку от разметки страниц, отвечающей за представление страницы с помощью агента пользователя.

Данные проблемы призваны в том числе решать интеллектуальные поисковые агенты, которые отличаются от обычных и специализированных поисковых агентов тем, что предусматривают наличие формализованного описания предметной области. Чаще всего, необходимое описание формируется пользователем и служит, во-первых, для уточнения запроса и, во-вторых, для улучшения поиска за счет анализа результатов и последующего изменения самого описания предметной области [2].

Прежде всего, предлагаемый подход ориентирован на возможность ”быстрого старта”, так чтобы пользователь, начав работу с чистого листа, мог бы сразу получать результаты, по крайней мере, не хуже, чем при использовании отдельно взятой поисковой машины, притом, что пользователь может.

Рассмотрим подробнее набор функций, которыми должен обладать интеллектуальный поисковый агент, а именно:

1) интерпретация запроса пользователя с учетом модели предметной области;

2) изменение (обучение) модели предметной области в соответствии с результатами поиска на основе оценок пользователя

3) Автоматизированное построение предположений о структуре семантической сети.

Как уже говорилось, для придания необходимого качества создаваемая система должна быть готовой к использованию даже без предварительного заполнения базы знаний. Это означает, что алгоритмы интерпретации запроса пользователя должны позволять системе функционировать в режиме метапоиска и регулировать степень влияния содержимого модели предметной области на их работу с ростом достоверности модели.

В качестве дополнительного, но достаточно важного требования отметим также удобство пользования поисковым механизмом для конечного пользователя. Прежде всего, это касается формулировки целей для поискового агента. Это должна быть либо фраза на естественном языке, привычная для пользователей поисковых машин, либо упрощенные действия с несложным графическим представлением предметной области.

Исходя из вышеизложенных требований к системам такого класса, далее рассмотрим основные идеи и принципы, с применением которых становятся возможными проектирование и реализация подобного рода систем.

Одна из главных функций поискового агента, построенного в соответствии с данным подходом, – интерпретировать запрос пользователя на естественном языке в термины предметной области (это достигается за счет сопоставления слов запроса и ключевых слов, соответствующих понятиям из таксономии) и с учетом этой интерпретации обращаться к индексирующим поисковым машинам Интернет. В этой части подход сходен с работой неинтеллектуальных метапоисковых агентов.

В качестве модели представления предметной области (с учетом требований простоты и наглядности) предлагается использовать иерархическую таксономию понятий [3]. Для того, чтобы удовлетворять требованиям по интерпретации запросов и анализу достоверности результатов, она должна быть дополнена служебной информацией о смысле этих понятий. В простейшем случае в качестве служебной информации может служить вектор взвешенных ключевых слов, соответствующих понятию. Применение наборов синонимичных ключевых слов и их варьирование при использовании поисковых машин должно при соответствующем анализе результатов решить проблему “слишком малого – слишком большого количества” документов в результирующем отчете.

Анализ результатов должен сводиться к проверке доступности, построению образов найденных с помощью метапоиска страниц, сопоставлению образа запроса и образов страниц с целью вычисления релевантности. При вычисленной степени соответствия документа каждому из узлов семантической сети поисковый агент может делать выводы о принадлежности документа рассматриваемой предметной области и о необходимости ее доопределения. Примером такого “предположения” поискового агента может быть добавление дополнительного подкласса, если результат соответствует некоторому множеству подклассов базового понятия.

Оценка документа и обучение модели предметной области могут происходить в соответствии с “наивным” байесовским методом без учета зависимости между словами в тексте. Каждому понятию из таксономии сопоставляется множество ключевых слов (в нормальной форме), имеющих следующие атрибуты: m_i_,1 – количество вхождений i-го ключевого слова в страницы, которые были признаны релевантными; m_i_,2 – количество вхождений i-го ключевого слова в страницы, которые были признаны нерелевантными и n_i –ранг ключевого слова. Слова ранжируются по вероятности их вхождения в релевантный документ [1].

Для формирования запросов к поисковым машинам на первом этапе поиска используются слова, ранг которых превышает некоторое заданное пороговое значение n_0,_i.

Обучение модели предметной области состоит в изменении величин m₁и m₂ в соответствии с мнением пользователя, который может пометить полученную страницу как релевантную или несоответствующую запросу, а также на основе входящих в нее терминов может добавить новое понятие в таксономию или отнести ее к другому, уже имеющемуся понятию. Это изменение затрагивает как выбранное понятие, так и все остальные, поскольку как было сказано выше, в вычислении релевантности участвует приведенная вероятность вхождения ключевого слова. [4]

Данный подход направлен на ускорение достижения конечной цели поиска и, вполне возможно, он может быть менее эффективным по сравнению с использованием какой-либо индексирующей поисковой машины в рамках одного сеанса поиска, однако эксперименты с построенным в соответствии с данным подходом поисковым агентом, реализованным в виде автономного приложения для операционных систем семейства Windows, Mac OS X 10 и для Linux с установленной библиотекой GTK позволяют говорить о повышении эффективности, если ее рассматривать интегрально, на протяжении всего процесса поиска по определенной, возможно, изначально незнакомой пользователю предметной области.

Дальнейшее развитие этого подхода должно быть направлено на усиление обратной связи между результатами поиска и моделью предметной областью, а также связано с использованием мультиагентного подхода.

ЛИТЕРАТУРА

1. Meadow C.T., Boyce B.R., Kraft D.H., Text Information Retrieval Systems (Library and Information Science), Academic Press, 2000.

2. Гаврилова Т.А., Хорошевский В.Ф., Базы знаний интеллектуальных систем, СПб. Питер, 2001

3. Загоруйко Н.Г., Прикладные методы анализа данных и знаний, Новосибирск, 1999

4. Дзегеленок И.И., Филипьев И.В., Подход к созданию интеллектуального агента согласованного информационного поиска в Интернет. Материалы девятой национальной конференции по искусственному интеллекту КИИ-2004