BC/NW 2006, №2, (9) :13.2
СТЕГАНОГРАФИЧЕСКИЙ
АНАЛИЗ ТЕКСТОВЫХ ФАЙЛОВ-КОНТЕЙНЕРОВ ПРИ РАБОТЕ В ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ
Колошеин Ю. А.
(Москва, Московский
Энергетический Институт (Технический Университет), Россия)
На протяжении всей своей истории человечество защищало свои секреты,
однако применяемые комплексы административно-технических мер, направленных на
обеспечение требуемого уровня, не всегда могли противостоять новым видам атак,
например, стеганографическим атакам, использующим в качестве контейнера текстовый
файл. Стеганография – новейшая область [1] computer science,
занимающаяся вопросами защиты информации. Настоящий доклад посвящен вопросам
стеганографического анализа текстовых файлов-контейнеров, а именно –
обнаружения факта наличия в контейнере встроенной информации.
Анализируя текстовые файлы-контейнеры, заполненные с помощью программных
продуктов, приведенных в [2, 3], заметим наличие во многих контейнерах так
называемых маркеров наличия в контейнере секретного сообщения; обычно такой
маркер занимает 1 байт (в качестве примера можно привести FFENCODE,
Secure Engine 4.0). Заметим, что часть
этих маркеров может «выбиваться» из общего текста-контейнера, например, не
алфавитно-цифровые символы кодировки ANSI/ASCII.
В этом случае анализ сильно упрощается, так как наличие такого маркера
позволяет однозначно установить факт передачи информации (вернее то, что в
анализируемый контейнер встроена информация – в данном контексте это одно и
тоже).
Гораздо сложнее дело обстоит в случае, если стеганографический алгоритм,
с помощью которого в текстовый контейнер была встроена информация, относится к
классу вычислительно стойких стегоалгоритмов [4]. Как обнаружить факт наличия
встроенной информации именно в таком контейнере?
В рамках проведенных исследований было выделено два класса
текстов-контейнеров: техническая литература, художественная литература.
В основу исследований была положена идея построения образа идеального
пустого контейнера, сравнивая с которым любой отдельно взятый контейнер можно
судить о наличии либо отсутствии информации в последнем с определенной
вероятностью. Необходимо выбрать параметры, наиболее информативные для данного
конкретного случая.
В ходе анализа пустого и заполненного контейнеров были выявлены
следующие особенности (вытекают из алгоритма встраивания [4]):
1. размеры пустого и
заполненного контейнеров совпадают;
2. длина строки (текст
моноширинный!) пустого и заполненного контейнеров совпадают;
3. количество пробелов (именно
с их помощью в текст-контейнер встраивается информация) пустого и заполненного
контейнеров совпадают.
В результате сравнительного анализа статистических характеристик пустого
и заполненного контейнеров был выявлен наиболее удобный с точки зрения
стеганографического анализа текста-контейнера параметр – средняя длина интервала.
Пусть – количество средних длин интервалов для
контейнера Т.
= max(Ij), где Ij – количество интервалов в j-ой строке контейнера Т, jÎ[1, n], n – число строк в Т.
Пусть -
длина i-й средней длины интервала.
, где li – длина i-го интервала, iÎ[1, NСДИ]
Примечание. Исследования показали, что средняя длина интервала при
встраивании информации в контейнер меняется более сильно, чем другие параметры,
следовательно, средняя длина интервала более информативна.
На основе средних длин интервалов был построен образ пустого контейнера.
В связи с тем, что для построения идеального или близкого к идеальному образа
пустого контейнера необходим анализ очень большого количества достаточно
больших по объему текстов, были введены верхняя и нижняя граница образа пустого
контейнера, в качестве которых были взяты минимальные и максимальные значения
параметров.
Заметим, что для каждого класса текстов-контейнеров образ пустого
контейнера будет свой, то есть в общем случае образы пустых контейнеров для
разных классов тестов могут сильно отличаться. Это утверждение подтверждается
экспериментом.
В таблице 1 приведены образы, в которые с помощью авторского
программного обеспечения была встроена информация. Совокупность средних длин интервалов
и образ контейнера в данном контексте одно и тоже.
Таблица 1. Образ
заполненного контейнера (научно-технический текст)
№ |
Контей-нер |
Всего |
Удельная длина интервала |
||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|||
1 |
File1.txt |
518 |
2,25 |
2,27 |
2 |
1,75 |
1,75 |
1,5 |
1,5 |
1,2 |
1 |
2 |
File2.txt |
782 |
2,25 |
2,27 |
2,1 |
1,72 |
1,76 |
1,5 |
1,5 |
1,2 |
1,1 |
3 |
File3.txt |
644 |
2,23 |
2,29 |
2,2 |
1,73 |
1,78 |
1,3 |
1,7 |
1,1 |
1,1 |
4 |
File4.txt |
1123 |
2,27 |
2,25 |
1,9 |
1,76 |
1,74 |
1,6 |
1,4 |
1,1 |
0,9 |
5 |
File5.txt |
347 |
2,24 |
2,28 |
2,1 |
1,74 |
1,74 |
1,6 |
1,4 |
1,2 |
1,0 |
6 |
File6.txt |
654 |
2,27 |
2,25 |
2 |
1,75 |
1,77 |
1,5 |
1,5 |
1,1 |
0,8 |
7 |
File7.txt |
519 |
2,28 |
2,24 |
2 |
1,76 |
1,74 |
1,4 |
1,3 |
1,1 |
0,9 |
Обнаружение встроенной в контейнер информации основано на сравнении
образа пустого и заполненного контейнеров. Если образы сильно отличаются, то с
определенной вероятностью считаем, что данный контейнер содержит в себе
встроенную информацию. Если образы отличаются незначительно, считаем контейнер
(также с определенной вероятностью). Для наглядности построим гистограмму
образа пустого контейнера, и на этой же гистограмме отобразим образ
заполненного контейнера (file1.txt). Гистограммы приведены на
рис. 1 (красным цветом изображен образ пустого «идеального» контейнера, а
зеленым – образ анализируемого заполненного контейнера).
Заметим, что если контейнер заполнен не полностью, обнаружить встроенную
в контейнер информацию сложнее, так как образы в общем случае будут отличаться
слабее, чем в случае полного заполнения контейнера.
Рисунок 1 – гистограммы
образов пустого идеального и заполненного контейнеров
В результате проведенной работы были выявлены характеристики контейнера,
анализируя которые, можно качественно ответить на вопрос: содержит
анализируемый контейнер встроенную информацию или нет? В ходе дальнейшей
работы, возможно, удастся получить количественные оценки вероятностей
обнаружения информации в контейнере (вероятность обнаружения информации при
условии, что она там действительно есть, при условии, что ее там нет;
вероятность необнаружения информации при условии, что ее там нет, а также при
условии, что она там есть). Возможно, удастся выявить порог обнаружения, т.е. количество информации, которое нельзя
обнаружить для стеганографического метода [4].
ЛИТЕРАТУРА
1. Грибунин В.Г., Оков И.Н.,
Туринцев И.В. Цифровая стеганография. – М.: СОЛОН-Пресс, 2002. – 272 с.
2. Мельников Ю.Н., Колошеин
Ю.А. Возможности сокрытия банковской информации в текстовых файлах. //
Банковские технологии. – 2003. – №11. – С. 35-37.
3. Мельников Ю.Н., Колошеин
Ю.А. Возможности сокрытия банковской информации в текстовых файлах. //
Банковские технологии. – 2003. – №12. – С. 40-44.
4. Колошеин
Ю.А. Разработка алгоритма стеганографического сокрытия защищаемой информации в
текстовом файле. Труды IX Международной научно-практической конференции
"Стратегия развития пищевой промышленности". Выпуск 8 (т. II), Москва,
13-14 мая