Вычислительные сети, теория и практика.

BC/NW 2006, №1 (8): 4.1

АЛГОРИТМ ОПТИМИЗАЦИИ НАЙДЕННОЙ В ИНТЕРНЕТ-РЕСУРСАХ ИНФОРМАЦИИ

Д.Д. Хайитов, С.А. Сухов

(УлГТУ, г. Ульяновск)

Возрастающие информационные потребности современного общества, требования к скорости нахождении требуемой информации стимулирует быстрое развитие глобальной сети Интернет и технологий, автоматизирующих процессы публикации, поиска и обработки информации. Однако, следует признать тот факт, что уровень предоставляемых сервисов по нахождению и обработки информации в Интернет еще далек от совершенства. Достаточная эффективность имеющихся технологий и инструментария для поиска информации, опубликованной в Интернет (поисковые машины) значительно снижается на этапах формирования критериев отбора информации и обработки найденной информации

В данном докладе рассматривается решение проблем, связанных с дублированием информации, найденной на различных ресурсах.

С дублированием связаны следующие проблемы: рост объема хранилища, возрастание объема трафика, нарушение целостности информации, большие временные затраты. Опираясь на экспериментальные данные и результаты анализа имеющихся подходов, предлагается следующий алгоритм.

1. Поиск производится по URL, хранящимся в базе данных ссылок. Администратору сервера позволяется добавлять или удалять ссылки в БД. По просьбам пользователей в базу можно заносить предложенные ими.

2. Пользователю предлагается набор категорий необходимой информации, например: бизнес, спорт, развлечения. Поиск по критерию пользователя производится уже в выбранной категории, что приводит к увеличению эффективности данной операции, а так же к уменьшению времени, затраченного на ее выполнение.

3. В алгоритме имеется возможность добавлять к критерию дополнительные слова (автоматически или по команде пользователя), значительно сужающих количество найденных документов.

4. С найденными документами производится операция сравнения (проверка на дублирование). Допустим, в документе найдены слова-критерии (обозначим их через переменную А – для первого предложения и Б – для второго). Построение предложений устроено таким образом, что как правило 3 слов (приблизительно 20 символов) до и после А, хватает на то, чтобы удостоверится в схожести или отличии одного предложения от другого. Значит необходимо выполнить следующую операцию: А1+А+А2=Б1+Б+Б2, где А и Б – слова-критерии, найденные в разных документах; А1, А2, Б1, Б2 – 3 слова до и после слов-критериев для первого и второго документов соответственно.

Если это выражение верно, до предложения считаются идентичными.

5. URL подразделяются в БД по показателям «одобрения». Ссылки с наивысшим показателям проверяются в первую очередь.

Проведенный анализ показывает, что практическая реализация алгоритма позволит снизить потребности в дисковом пространстве на 30%, уменьшит трафик в сети в 2 раза, позволит увеличить эффективность обработки информации для конечного пользователя и автоматизировать генерацию отчетов, содержащих адекватную информацию, уменьшить время, затрачиваемое на поиск.

Литература

1. Похилько А. Ф. Обработка и хранение проектных решений в ИИС / Удовиченко А. В. // Вестник Ульяновского государственного технического университета. - 2004. - N 2. - С. 57-61