Вычислительные сети, теория и практика.

BC/NW 2006, №2, (9) :13.2

СТЕГАНОГРАФИЧЕСКИЙ АНАЛИЗ ТЕКСТОВЫХ ФАЙЛОВ-КОНТЕЙНЕРОВ ПРИ РАБОТЕ В ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ

Колошеин Ю. А.

(Москва, Московский Энергетический Институт (Технический Университет), Россия)

На протяжении всей своей истории человечество защищало свои секреты, однако применяемые комплексы административно-технических мер, направленных на обеспечение требуемого уровня, не всегда могли противостоять новым видам атак, например, стеганографическим атакам, использующим в качестве контейнера текстовый файл. Стеганография – новейшая область [1] computer science, занимающаяся вопросами защиты информации. Настоящий доклад посвящен вопросам стеганографического анализа текстовых файлов-контейнеров, а именно – обнаружения факта наличия в контейнере встроенной информации.

Анализируя текстовые файлы-контейнеры, заполненные с помощью программных продуктов, приведенных в [2, 3], заметим наличие во многих контейнерах так называемых маркеров наличия в контейнере секретного сообщения; обычно такой маркер занимает 1 байт (в качестве примера можно привести FFENCODE, Secure Engine 4.0). Заметим, что часть этих маркеров может «выбиваться» из общего текста-контейнера, например, не алфавитно-цифровые символы кодировки ANSI/ASCII.

В этом случае анализ сильно упрощается, так как наличие такого маркера позволяет однозначно установить факт передачи информации (вернее то, что в анализируемый контейнер встроена информация – в данном контексте это одно и тоже).

Гораздо сложнее дело обстоит в случае, если стеганографический алгоритм, с помощью которого в текстовый контейнер была встроена информация, относится к классу вычислительно стойких стегоалгоритмов [4]. Как обнаружить факт наличия встроенной информации именно в таком контейнере?

В рамках проведенных исследований было выделено два класса текстов-контейнеров: техническая литература, художественная литература.

В основу исследований была положена идея построения образа идеального пустого контейнера, сравнивая с которым любой отдельно взятый контейнер можно судить о наличии либо отсутствии информации в последнем с определенной вероятностью. Необходимо выбрать параметры, наиболее информативные для данного конкретного случая.

В ходе анализа пустого и заполненного контейнеров были выявлены следующие особенности (вытекают из алгоритма встраивания [4]):

1. размеры пустого и заполненного контейнеров совпадают;

2. длина строки (текст моноширинный!) пустого и заполненного контейнеров совпадают;

3. количество пробелов (именно с их помощью в текст-контейнер встраивается информация) пустого и заполненного контейнеров совпадают.

В результате сравнительного анализа статистических характеристик пустого и заполненного контейнеров был выявлен наиболее удобный с точки зрения стеганографического анализа текста-контейнера параметр – средняя длина интервала.

Пусть – количество средних длин интервалов для контейнера Т.

= max(I_j), где I_j – количество интервалов в j-ой строке контейнера Т, jÎ[1, n], n – число строк в Т.

Пусть - длина i-й средней длины интервала.

, где l_i – длина i-го интервала, iÎ[1, N_СДИ]

Примечание. Исследования показали, что средняя длина интервала при встраивании информации в контейнер меняется более сильно, чем другие параметры, следовательно, средняя длина интервала более информативна.

На основе средних длин интервалов был построен образ пустого контейнера. В связи с тем, что для построения идеального или близкого к идеальному образа пустого контейнера необходим анализ очень большого количества достаточно больших по объему текстов, были введены верхняя и нижняя граница образа пустого контейнера, в качестве которых были взяты минимальные и максимальные значения параметров.

Заметим, что для каждого класса текстов-контейнеров образ пустого контейнера будет свой, то есть в общем случае образы пустых контейнеров для разных классов тестов могут сильно отличаться. Это утверждение подтверждается экспериментом.

В таблице 1 приведены образы, в которые с помощью авторского программного обеспечения была встроена информация. Совокупность средних длин интервалов и образ контейнера в данном контексте одно и тоже.

Таблица 1. Образ заполненного контейнера (научно-технический текст)

№	Контей-нер	Всего интервалов	Удельная длина интервала
№	Контей-нер	Всего интервалов	1	2	3	4	5	6	7	8	9
1	File1.txt	518	2,25	2,27	2	1,75	1,75	1,5	1,5	1,2	1
2	File2.txt	782	2,25	2,27	2,1	1,72	1,76	1,5	1,5	1,2	1,1
3	File3.txt	644	2,23	2,29	2,2	1,73	1,78	1,3	1,7	1,1	1,1
4	File4.txt	1123	2,27	2,25	1,9	1,76	1,74	1,6	1,4	1,1	0,9
5	File5.txt	347	2,24	2,28	2,1	1,74	1,74	1,6	1,4	1,2	1,0
6	File6.txt	654	2,27	2,25	2	1,75	1,77	1,5	1,5	1,1	0,8
7	File7.txt	519	2,28	2,24	2	1,76	1,74	1,4	1,3	1,1	0,9

Обнаружение встроенной в контейнер информации основано на сравнении образа пустого и заполненного контейнеров. Если образы сильно отличаются, то с определенной вероятностью считаем, что данный контейнер содержит в себе встроенную информацию. Если образы отличаются незначительно, считаем контейнер (также с определенной вероятностью). Для наглядности построим гистограмму образа пустого контейнера, и на этой же гистограмме отобразим образ заполненного контейнера (file1.txt). Гистограммы приведены на рис. 1 (красным цветом изображен образ пустого «идеального» контейнера, а зеленым – образ анализируемого заполненного контейнера).

Заметим, что если контейнер заполнен не полностью, обнаружить встроенную в контейнер информацию сложнее, так как образы в общем случае будут отличаться слабее, чем в случае полного заполнения контейнера.

Рисунок 1 – гистограммы образов пустого идеального и заполненного контейнеров

В результате проведенной работы были выявлены характеристики контейнера, анализируя которые, можно качественно ответить на вопрос: содержит анализируемый контейнер встроенную информацию или нет? В ходе дальнейшей работы, возможно, удастся получить количественные оценки вероятностей обнаружения информации в контейнере (вероятность обнаружения информации при условии, что она там действительно есть, при условии, что ее там нет; вероятность необнаружения информации при условии, что ее там нет, а также при условии, что она там есть). Возможно, удастся выявить порог обнаружения, т.е. количество информации, которое нельзя обнаружить для стеганографического метода [4].

ЛИТЕРАТУРА

1. Грибунин В.Г., Оков И.Н., Туринцев И.В. Цифровая стеганография. – М.: СОЛОН-Пресс, 2002. – 272 с.

2. Мельников Ю.Н., Колошеин Ю.А. Возможности сокрытия банковской информации в текстовых файлах. // Банковские технологии. – 2003. – №11. – С. 35-37.

3. Мельников Ю.Н., Колошеин Ю.А. Возможности сокрытия банковской информации в текстовых файлах. // Банковские технологии. – 2003. – №12. – С. 40-44.

4. Колошеин Ю.А. Разработка алгоритма стеганографического сокрытия защищаемой информации в текстовом файле. Труды IX Международной научно-практической конференции "Стратегия развития пищевой промышленности". Выпуск 8 (т. II), Москва,
13-14 мая 2003 г.