Вычислительные сети, теория и практика.

BC/NW 2009, №1 (14):6.2

ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ РЕЧЕПРЕОБРАЗУЮЩИХ УСТРОЙСТВ СО СКОРОСТЯМИ МЕНЕЕ 4,8 КБИТ/С

Максимов М.И., Чернояров О.В.

(Москва, Московский Технический Университет Связи и Информатики, Россия)

Разработка речепреобразующих устройств определяется компромиссом между рядом противоречивых факторов: желаемым качеством кодированной речи; скоростью битового потока; устойчивостью речевого преобразования к канальным ошибкам; возможностью работы при большом уровне акустических шумов; минимумом затрачиваемых ресурсов цифрового процессора обработки сигналов. В связи с невозможностью одновременного выполнения требований по перечисленным факторам, был разработан ряд моделей на языке “СИ”, являющихся оптимальными по тем или иным параметрам.

В качестве базового алгоритма вокодера был выбран алгоритм MELP (Mixed Excitation Linear Prediction) со скоростью битового потока 2400 бит/c. Данный алгоритм основан на традиционной параметрической модели кодирования с линейным предсказанием, но, кроме того, содержит ряд дополнительных особенностей, а именно:

- вся рабочая область частот делится на пять полос, в каждой из которых принимается решение о классе сигнала возбуждения – “шумовой” или “голосовой”. Таким образом, суммарный сигнал возбуждения является смешанным;

- форма “голосового” сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера;

- для реализации одиночных импульсов возбуждения применяются “апериодические” импульсы;

- c целью улучшения “натуральности” звучания синтезированной речи применяются дисперсионный и адаптивный фильтры.

Суммарный список параметров, передаваемый от кодера к декодеру за один речевой фрейм длительностью 22,5 мс, представлен в таблице.

Таблица

Параметр	“Голосовой” фрейм (бит)	“Шумовой” фрейм (бит)
Линейные спектральные пары (ЛСП)	25	25
Амплитуды преобразования Фурье сигнала возбуждения	8	-
Коэффициенты усиления (2 за фрейм)	8	8
Период основного тона, общая озвученность фрейма	7	7
Озвученность по полосам	4	-
Флаг периодичности	1	-
Защита от ошибок	-	13
Синхробит	1	1
Всего за кадр,22,5 мс	54	54

Задача практической реализации низкоскоростного вокодера, имеющего приемлемое качество синтезированной речи при ошибках в канале до 5%, решалась двумя способами: 1. При сохранении битовой скорости 2400 бит/с использовались оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки. После проведенных исследований был выбран сверточный код с кодовым ограничением К=7 и скоростью 1/2. Скорость суммарного битового потока при этом составила 4800 бит/с, а качество речи при 5% ошибок в канале практически не отличалось от вокодера со скоростью 2400 бит/с при 1% ошибок; 2. Первоначально была снижена скорость битового речевого потока до 1200 бит/с без существенной деградации разборчивости выходного речевого сигнала. Уменьшение скорости битового потока было достигнуто за счет некоторого снижения узнаваемости и интонационной окраски голоса. Далее использовался тот же сверточный код, после чего суммарная скорость потока информационных и проверочных бит составила 2400 бит/с.