Вычислительные сети, теория и практика.

BC/NW 2015 № 1 (26) 6:4

МЕТОДИКА ОПРЕДЕЛЕНИЯ НОВОСТНЫХ ЗАПРОСОВ К ПОИСКОВОЙ СИСТЕМЕ

Колобаев Г.В., Топорков В.В.

Эффективность поисковой системы определяется полнотой и качеством поиска. Качество поиска определяется релевантностью поисковой выдачи, а также эмпирической удовлетворенностью пользователя результатами поиска.

Среди совокупности различных методов, предназначенных повысить качество поисковой выдачи, можно выделить так называемый вертикальный поиск. Данный подход заключается в поиске запроса по разным коллекциям с последующим блэндингом. Блэндинг осуществляется на основе алгоритмов, построенных с помощью машинного обучения. Одним из параметров таких алгоритмов является фактор принадлежности запроса к той или иной коллекции.

Одной из задач блэндинга является показ пользователю текущих новостей в случае введения новостного запроса.

Решение данной задачи основывается на анализе статистики запросов пользователей за определенное время. Статистика запросов высчитывается путем непрерывного анализа лог-сообщений поисковой системы, при этом каждый час происходит сохранение накопленной информации о количестве уникальных запросов от пользователей. Набор часовых статистик используется для вычисления относительных частот каждого запроса за различные промежутки времени. Обладая подобными данными, можно вычислить фактор «новизны» запроса за некоторый промежуток времени относительного другого промежутка [1]. Используя различные промежутки времени, например, можно получить набор факторов для каждого запроса, после чего применить машинное обучение с целью построения модели, определяющей степень принадлежности запроса к новостной коллекции.

Литература

1. Maslov M., Golovko A., Segalovich I., Braslavski P. Extracting News-Related Queries from Web Query Log. WWW 2006, May 23–26, 2006, Edinburgh, UK.