BC/NW 2006, №1 (8): 4.1
АЛГОРИТМ ОПТИМИЗАЦИИ НАЙДЕННОЙ В ИНТЕРНЕТ-РЕСУРСАХ
ИНФОРМАЦИИ
Д.Д. Хайитов, С.А. Сухов
(УлГТУ, г. Ульяновск)
Возрастающие информационные потребности современного
общества, требования к скорости нахождении требуемой информации стимулирует
быстрое развитие глобальной сети Интернет и технологий, автоматизирующих
процессы публикации, поиска и обработки информации. Однако,
следует признать тот факт, что уровень предоставляемых сервисов по нахождению и
обработки информации в Интернет еще далек от совершенства. Достаточная
эффективность имеющихся технологий и инструментария для поиска информации,
опубликованной в Интернет (поисковые машины) значительно снижается на этапах
формирования критериев отбора информации и обработки найденной информации
В данном докладе рассматривается решение проблем,
связанных с дублированием информации, найденной на различных ресурсах.
С дублированием связаны следующие проблемы: рост
объема хранилища, возрастание объема трафика, нарушение целостности информации,
большие временные затраты. Опираясь на экспериментальные данные и результаты
анализа имеющихся подходов, предлагается следующий алгоритм.
1.
Поиск
производится по URL, хранящимся в базе данных
ссылок. Администратору сервера позволяется добавлять или удалять ссылки в БД.
По просьбам пользователей в базу можно заносить предложенные
ими.
2.
Пользователю
предлагается набор категорий необходимой информации, например: бизнес, спорт,
развлечения. Поиск по критерию пользователя производится уже в выбранной
категории, что приводит к увеличению эффективности данной операции, а так же к
уменьшению времени, затраченного на ее выполнение.
3.
В
алгоритме имеется возможность добавлять к критерию дополнительные слова (автоматически
или по команде пользователя), значительно сужающих количество найденных
документов.
4.
С
найденными документами производится операция сравнения (проверка на
дублирование). Допустим, в документе найдены слова-критерии (обозначим их через
переменную А – для первого предложения и Б – для
второго). Построение предложений устроено таким образом, что как правило 3 слов
(приблизительно 20 символов) до и после А, хватает на
то, чтобы удостоверится в схожести или отличии одного предложения от другого.
Значит необходимо выполнить следующую операцию: А1+А+А2=Б1+Б+Б2,
где А и Б – слова-критерии, найденные в разных документах; А1, А2, Б1, Б2 – 3
слова до и после слов-критериев для первого и второго документов соответственно.
Если это выражение верно, до предложения считаются
идентичными.
5.
URL подразделяются в БД по показателям «одобрения».
Ссылки с наивысшим
показателям проверяются в первую очередь.
Проведенный анализ показывает, что практическая
реализация алгоритма позволит снизить потребности в дисковом пространстве на
30%, уменьшит трафик в сети в 2 раза, позволит увеличить эффективность обработки
информации для конечного пользователя и автоматизировать генерацию отчетов,
содержащих адекватную информацию, уменьшить время, затрачиваемое на поиск.
Литература
1.
Похилько А. Ф. Обработка и хранение проектных решений в ИИС / Удовиченко А. В.
// Вестник Ульяновского государственного технического университета. - 2004. - N
2. - С. 57-61