BC/NW 2009, №1 (14):6.2

 

ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ РЕЧЕПРЕОБРАЗУЮЩИХ УСТРОЙСТВ СО СКОРОСТЯМИ МЕНЕЕ 4,8 КБИТ/С

 

Максимов М.И., Чернояров О.В.

 

(Москва, Московский Технический Университет Связи и Информатики, Россия)

 

Разработка речепреобразующих устройств определяется компромиссом между рядом противоречивых факторов: желаемым качеством кодированной речи; скоростью битового потока; устойчивостью речевого преобразования к канальным ошибкам; возможностью работы при большом уровне акустических шумов; минимумом затрачиваемых ресурсов цифрового процессора обработки сигналов. В связи с невозможностью одновременного выполнения требований по перечисленным факторам, был разработан ряд моделей на языке “СИ”, являющихся оптимальными по тем или иным параметрам.

В качестве базового алгоритма вокодера был выбран алгоритм MELP (Mixed Excitation Linear Prediction) со скоростью битового потока 2400 бит/c. Данный алгоритм основан на традиционной параметрической модели кодирования с линейным предсказанием, но, кроме того, содержит ряд дополнительных особенностей, а именно:

- вся рабочая область частот делится на пять полос, в каждой из которых принимается решение о классе сигнала возбуждения – “шумовой” или “голосовой”. Таким образом, суммарный сигнал возбуждения является смешанным;

- форма “голосового” сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера;

- для реализации одиночных импульсов возбуждения применяются “апериодические” импульсы;

- c целью улучшения “натуральности” звучания синтезированной речи применяются дисперсионный и адаптивный фильтры.

Суммарный список параметров, передаваемый от кодера к декодеру за один речевой фрейм длительностью 22,5 мс, представлен в таблице.

                                                                                                                      Таблица

Параметр

“Голосовой” фрейм (бит)

“Шумовой” фрейм (бит)

Линейные спектральные пары (ЛСП)

25

25

Амплитуды преобразования Фурье сигнала возбуждения

8

-

Коэффициенты усиления (2 за фрейм)

8

8

Период основного тона, общая озвученность фрейма

7

7

Озвученность по полосам

4

-

Флаг периодичности

1

-

Защита от ошибок

-

13

Синхробит

1

1

Всего за кадр,22,5 мс

54

54

 

Задача практической реализации низкоскоростного вокодера, имеющего приемлемое качество синтезированной речи при ошибках в канале до 5%, решалась двумя способами: 1. При сохранении битовой скорости 2400 бит/с использовались оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки. После проведенных исследований был выбран сверточный код с кодовым ограничением К=7 и скоростью 1/2. Скорость суммарного битового потока при этом составила 4800 бит/с, а качество речи при 5% ошибок в канале практически не отличалось от вокодера со скоростью 2400 бит/с при 1% ошибок; 2. Первоначально была снижена скорость битового речевого потока до 1200 бит/с без существенной деградации разборчивости выходного речевого сигнала. Уменьшение скорости битового потока было достигнуто за счет некоторого снижения узнаваемости и интонационной окраски голоса. Далее использовался тот же сверточный код, после чего суммарная скорость потока информационных и проверочных бит составила 2400 бит/с.