BC/NW 2009, №1 (14):6.2
ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ
РЕЧЕПРЕОБРАЗУЮЩИХ УСТРОЙСТВ СО СКОРОСТЯМИ МЕНЕЕ 4,8 КБИТ/С
Максимов М.И., Чернояров О.В.
(Москва, Московский Технический Университет Связи и Информатики,
Россия)
Разработка
речепреобразующих устройств определяется компромиссом между рядом
противоречивых факторов: желаемым качеством кодированной речи; скоростью
битового потока; устойчивостью речевого преобразования к канальным ошибкам;
возможностью работы при большом уровне акустических шумов; минимумом затрачиваемых
ресурсов цифрового процессора обработки сигналов. В связи с невозможностью
одновременного выполнения требований по перечисленным факторам, был разработан
ряд моделей на языке “СИ”, являющихся оптимальными по тем или иным параметрам.
В
качестве базового алгоритма вокодера был выбран алгоритм MELP (Mixed Excitation Linear Prediction) со скоростью
битового потока 2400 бит/c. Данный
алгоритм основан на традиционной параметрической модели кодирования с линейным
предсказанием, но, кроме того, содержит ряд дополнительных особенностей, а именно:
-
вся рабочая область частот делится на пять полос, в каждой из которых принимается
решение о классе сигнала возбуждения – “шумовой” или “голосовой”. Таким
образом, суммарный сигнал возбуждения является смешанным;
-
форма “голосового” сигнала возбуждения реконструируется в декодере с помощью
амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера;
-
для реализации одиночных импульсов возбуждения применяются “апериодические”
импульсы;
- c целью улучшения “натуральности” звучания синтезированной
речи применяются дисперсионный и адаптивный фильтры.
Суммарный
список параметров, передаваемый от кодера к декодеру за один речевой фрейм длительностью
22,5 мс, представлен в таблице.
Таблица
Параметр |
“Голосовой”
фрейм (бит) |
“Шумовой”
фрейм (бит) |
Линейные
спектральные пары (ЛСП) |
25 |
25 |
Амплитуды
преобразования Фурье сигнала возбуждения |
8 |
- |
Коэффициенты
усиления (2 за фрейм) |
8 |
8 |
Период
основного тона, общая озвученность
фрейма |
7 |
7 |
Озвученность по полосам |
4 |
- |
Флаг
периодичности |
1 |
- |
Защита
от ошибок |
- |
13 |
Синхробит |
1 |
1 |
Всего
за кадр,22,5 мс |
54 |
54 |
Задача
практической реализации низкоскоростного вокодера, имеющего приемлемое качество
синтезированной речи при ошибках в канале до 5%, решалась двумя способами: 1.
При сохранении битовой скорости 2400 бит/с использовались
оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки.
После проведенных исследований был выбран сверточный
код с кодовым ограничением К=7 и скоростью 1/2. Скорость
суммарного битового потока при этом составила 4800 бит/с, а качество речи при
5% ошибок в канале практически не отличалось от вокодера со скоростью 2400
бит/с при 1% ошибок; 2. Первоначально была снижена скорость битового речевого
потока до 1200 бит/с без
существенной деградации разборчивости выходного речевого сигнала. Уменьшение
скорости битового потока было достигнуто за счет некоторого снижения
узнаваемости и интонационной окраски голоса. Далее использовался тот же сверточный код, после чего суммарная скорость потока информационных
и проверочных бит составила 2400 бит/с.