BC/NW 2003г., №1(3)/ 6.1
ИССЛЕДОВАНИЕ ВОЗМОЖНОСТЕЙ
СЖАТИЯ ГЛАСНЫХ ЗВУКОВ, ПУТЕМ УМЕНЬШЕНИЯ КОЛИЧЕСТВА СОСТАВЛЯЮЩИХ В СПЕКТРАЛЬНОМ
СРЕЗЕ
Евсеев А.И., Пичугин Е.В.
(Москва, Московский энергетический институт (ТУ), Россия)
При исследовании возможности сжатия речевого сигнала
путем уменьшения количества спектральных составляющих были получены неплохие
значения степени сжатия. Однако качество восстановленного сигнала для различных
речевых участков колеблется от хорошего до очень плохого. Для того чтобы
улучшить качество сигнала и выявить закономерности восстановления, было решено
исследовать различные звуки по отдельности. Первоначально были исследованы
гласные звуки.
Известно для записи и качественного восприятия речи,
достаточно динамического диапазона в 30 дб или 5 двоичных разрядов.
Это значит что амплитуды, значения которых меньше чем
1/32 от максимальной в спектральном срезе, можно не учитывать в
восстанавливаемом сигнале.
Было проведено преобразование исходного сигнала с
помощью БПФ и ДПФ. Сигнал с частотой дискретизации 11025 кГц и разрядностью 16
бит разбивался на участки. Для БПФ по 128, 256, 512 отсчетов, а для ДПФ на 2-8
периодов основного тона. В каждом спектральном срезе обнулялись амплитуды,
значения которых было меньше 1/32 от максимальной амплитуды в срезе. После
восстановления получали сигнал практически ничем не отличающийся от оригинала.
Качество было отличным.
После того как было выяснено, что уменьшение
динамического диапазона на 30 дб сохраняет приемлемое качество сигнала, стал
вопрос – а какой коэффициент сжатия можно получить, используя этот факт.
Для этого был произведен расчет отношения числа
оставшихся после преобразования составляющих к общему числу составляющих в
спектральном срезе для разных гласных звуков, используя как БПФ, так и ДПФ с
разными интервалами анализа.
Для анализа использовались звуковые файлы с гласными
звуками с частотой дискретизации 11025 кГц и16 разрядными значениями. Период
основного тона диктора равен примерно 200 Гц.
Были получены следующие данные (один диктор, период
основного тона = 200мс) см. табл. 1 и 2.
Таблица
1. БПФ. Процент оставшихся амплитуд.
Звук |
Количество спектральных составляющих |
|||
64 |
128 |
256 |
128 |
|
а |
50 |
34 |
32 |
32 |
и |
30 |
16 |
12 |
30 |
е |
58 |
40 |
32 |
32 |
о |
36 |
24 |
20 |
20 |
у |
30 |
18 |
12 |
12 |
ы |
30 |
14 |
12 |
8 |
Таблица
2. ДПФ с синхронизацией с периодом основного тона.
Звук |
Количество периодов основного тона |
||
2 |
3 |
4 |
|
а |
34 |
34 |
30 |
е |
41 |
35 |
34 |
о |
23 |
23 |
17 |
у |
14 |
15 |
12 |
ы |
15 |
16 |
10 |
Из приведенных выше таблиц видно, что возможность
достижения сжатия по количеству
оставляемых спектральных составляющих: для БПФ – от 2х до 64х раз в зависимости
от интервала анализа и типа звука, а для ДПФ синхронного с основным тоном – от
2.5 до 10.
При исключении из спектра составляющих возникает
вопрос – как сохранить номера и значения оставленных составляющих.
Со значениями проще, их можно просто записать как доли
от значения максимальной амплитуды, в пятиразрядной сетке (минимальным
значением, тогда как раз и будет 1/32), предварительно конечно сохранив это
максимальное значение.
А вот с номерами, т.е. позицией этих составляющих в
спектре, возможно использовать разные варианты.
Чтобы нагляднее представить какие амплитуды остаются,
а какие обнуляются, была использована следующая форма записи. После обнуления
части амплитуд спектр был представлен в виде двоичного вектора, в котором
единицы соответствовали значащей амплитуде, а нули обнуленной.
1234 n
0111101101101111……00001100001000000
Рис. 1. Представление позиций амплитуд в спектре
Для гласных звуков в таком представлении характерна
картина, когда в начальной части спектра наблюдается большое количество единиц,
а в конечной – большое количество нулей. Но так как в каждом отдельном случае
спектры все же отличаются друг от друга, то было решено для их записи
использовать эффективное кодирование, разбив весь вектор на символы
определенной длинны (например, 7 или 8). Это позволяет сократить
вышеприведенную запись почти в два раза (однако следует отметить, что эта
оценка весьма условна и сильно меняется для разных звуков и разных дикторов).
Если использовать ДПФ и брать интервалы анализа
кратные периоду основного тона диктора, то теоретически, в спектре должны
остаться только амплитуды находящиеся на частотах кратных периоду основного
тона. Т.е. если для анализа брать интервал равный 4-м периодам основного тона,
то ненулевой будет каждая 4-я составляющая в спектре.
К сожалению, на практике после преобразования остаются
не только кратные частоты. Этот факт можно использовать для сжатия сигнала.
Сохранить только частоты кратные периоду основного тона. Применить для них
преобразования, описанные в предыдущих пунктах.
В реальном сигнале период основного тона диктора
меняется, поэтому нельзя бесконечно увеличивать интервал анализа. На практике
приемлемое качество сохранялось при интервале анализа длительностью до 40 мс.,
далее наблюдалось ухудшение.
Кроме того, к минусам такого подхода следует отнести
относительно медленную скорость расчета ДПФ и необходимость проводить
упреждающий анализ сигнала для выявления текущего значения периода основного
тона диктора.
Следует оценить объем данных, которые нужно будет
передавать по каналам связи после проведения вышеописанных преобразований.
Пусть имеется речевой сигнал длительностью 1 секунда.
В нашем случае он содержит 11025 отсчетов по 16 разрядов.
При использовании БПФ с интервалом анализа 256
отсчетов у нас получится 43 спектральных среза. В каждом из них будет 128
амплитуд и 128 фаз (или в другом представлении 128 действительных и 128 мнимых частей)
После уменьшения динамического диапазона у нас
останется примерно 30 процентов всех составляющих, на каждую из которых будет
тратиться по 5 разрядов. В добавлении к этому будут записаны 43
последовательности по 128 бит, или меньше в 1.5–2 раза (в зависимости от результативности
эффективного кодирования.
Таким образом, получается величина равная примерно 20
кбит в секунду. Аналогичный результат получается и на других дикторах.
Описанные выше методы позволяют достигнуть хорошего коэффициента сжатия для гласных звуков. Но для практической реализации при сжатии непрерывного потока речи, состоящего из различных типов звуков и их сочетаний в словах и фразах, требуются дополнительные исследования для дальнейшего сокращения потока.