BC/NW 2009, №1 (14):6.2
ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ
РЕЧЕПРЕОБРАЗУЮЩИХ УСТРОЙСТВ СО СКОРОСТЯМИ МЕНЕЕ 4,8 КБИТ/С
Максимов М.И., Чернояров О.В.
(Москва, Московский Технический Университет Связи и Информатики,
Россия)
Разработка
речепреобразующих устройств определяется компромиссом между рядом
противоречивых факторов: желаемым качеством кодированной речи; скоростью
битового потока; устойчивостью речевого преобразования к канальным ошибкам;
возможностью работы при большом уровне акустических шумов; минимумом затрачиваемых
ресурсов цифрового процессора обработки сигналов. В связи с невозможностью
одновременного выполнения требований по перечисленным факторам, был разработан
ряд моделей на языке “СИ”, являющихся оптимальными по тем или иным параметрам.
В
качестве базового алгоритма вокодера был выбран алгоритм MELP (Mixed Excitation Linear Prediction) со скоростью
битового потока 2400 бит/c. Данный
алгоритм основан на традиционной параметрической модели кодирования с линейным
предсказанием, но, кроме того, содержит ряд дополнительных особенностей, а именно:
-
вся рабочая область частот делится на пять полос, в каждой из которых принимается
решение о классе сигнала возбуждения – “шумовой” или “голосовой”. Таким
образом, суммарный сигнал возбуждения является смешанным;
-
форма “голосового” сигнала возбуждения реконструируется в декодере с помощью
амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера;
-
для реализации одиночных импульсов возбуждения применяются “апериодические”
импульсы;
- c целью улучшения “натуральности” звучания синтезированной
речи применяются дисперсионный и адаптивный фильтры.
Суммарный
список параметров, передаваемый от кодера к декодеру за один речевой фрейм длительностью
22,5 мс, представлен в таблице.
Таблица
Параметр
|
“Голосовой”
фрейм (бит)
|
“Шумовой”
фрейм (бит)
|
Линейные
спектральные пары (ЛСП)
|
25
|
25
|
Амплитуды
преобразования Фурье сигнала возбуждения
|
8
|
-
|
Коэффициенты
усиления (2 за фрейм)
|
8
|
8
|
Период
основного тона, общая озвученность
фрейма
|
7
|
7
|
Озвученность по полосам
|
4
|
-
|
Флаг
периодичности
|
1
|
-
|
Защита
от ошибок
|
-
|
13
|
Синхробит
|
1
|
1
|
Всего
за кадр,22,5 мс
|
54
|
54
|
Задача
практической реализации низкоскоростного вокодера, имеющего приемлемое качество
синтезированной речи при ошибках в канале до 5%, решалась двумя способами: 1.
При сохранении битовой скорости 2400 бит/с использовались
оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки.
После проведенных исследований был выбран сверточный
код с кодовым ограничением К=7 и скоростью 1/2. Скорость
суммарного битового потока при этом составила 4800 бит/с, а качество речи при
5% ошибок в канале практически не отличалось от вокодера со скоростью 2400
бит/с при 1% ошибок; 2. Первоначально была снижена скорость битового речевого
потока до 1200 бит/с без
существенной деградации разборчивости выходного речевого сигнала. Уменьшение
скорости битового потока было достигнуто за счет некоторого снижения
узнаваемости и интонационной окраски голоса. Далее использовался тот же сверточный код, после чего суммарная скорость потока информационных
и проверочных бит составила 2400 бит/с.