BC/NW 2009; №1 (14):10.3
РАНЖИРОВАНИЕ И ПЕРЕСОРТИРОВКА
РЕЗУЛЬТАТОВ ПОИСКА ПО ИЗОБРАЖЕНИЯМ
Павлов Е.А., Хрящёв В.В.
(Ярославль, Ярославский Государственный Университет
им. П.Г. Демидова, Россия)
В настоящее время активно развиваются
информационные технологии в интернете, связанные с поиском
информации. В особый класс стоит выделить системы, предназначенные для поиска
изображений. К сожалению, из изображения сложно извлечь информацию о том, что
изображено, поэтому существующие поисковые системы используют контекст,
размещённый вокруг изображения или в специальных мета-тэгах самого изображения. Всё это приводит к большому
количеству нерелевантных результатов в поисковой выдаче [1].
В работе производится сравнение
существующих алгоритмов по поиску изображений, и приводятся доводы в пользу
использования предложенного усовершенствованного алгоритма, заключающегося в
пересортировке результатов классических поисковых систем.
Целью работы является создание
стабильной и оптимизированной системы в интернете по поиску изображений,
основанной на предложенном алгоритме пересортировки.
Особенностью реализации является
использование Yahoo Image Search API и распределённой системы Google App Engine,
использующей язык программирования Python.
Для получения поискового запроса,
скачиваются первые 500 изображения из поиска Yahoo по изображениям, используя Yahoo Image API. Затем
запускается алгоритм Фельценсцванга и Хутенлочера на каждом изображении. После того, как
завершились процессы начальной подготовки, запускается кластеризация для первых
15 изображений с окном сдвига среднего в 55. Области, которые слишком малы (менее
5% всего изображения) отфильтровываются из кластера. Для выполнения нового
ранжирования вычисляется значащий кластер. После получения значащего кластера в
пространстве характеристик вычисляется среднее. Оставшаяся часть изображений
затем сортируется, базируясь на расстоянии между их областями и средним. Т.к.
каждое изображение может потенциально содержать более чем одну область,
используется ближайшая область в каждом изображении. Для пересортировки
используется сравнение расстояния , так как известно, что для гистограмм это даёт лучший
результат, чем L2 расстояние
[2].
Результаты показали, что предложенный
алгоритм отлично работает для однословных запросов, показывая намного более
релевантную выдачу, чем стандартные поисковые системы. Наилучшие результаты
также получаются, если искать изображения, содержащие однотонные или с
доминированием одного цвета объекты поиска.
Для запросов, содержащих большое
количество слов, всё ещё встречаются нерелевантные изображения в поисковой
выдаче [3].
В дальнейшем планируется
оптимизировать алгоритм по скорости, а также улучшить поисковую выдачу для
многословных запросов.
Литература
1. K. Barnard, P. Duygulu, N. de Freitas, D. Forsyth, D. Blei, and
M. I. Jordan. Matching words and
pictures. Journal
of Machine Learning Research, 3, pp. 1107–1135, 2003.
2. J. Puzicha, T. Hofmann, and J. Buhmann.
Non-parametric similarity measures for unsupervised texture segmentation and
image retrieval. In CVPR, pp. 267–272, 1997