BC/NW
2010, №1 (16): 10.3
ДИКТОРОНЕЗАВИСИМАЯ
СИСТЕМА РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ НА ОСНОВЕ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ
Рытиков М.А., Широков Е.Е., Чернояров О.В.
(МТУСИ)
В течение последнего ряда лет наблюдается резкий
рост интереса к системам распознавания речи. На современном этапе стало
возможным практическое воплощение идей распознавания и понимания речи системами
различного назначения [1]. Несмотря на очевидный прогресс в данной области
исследований, автоматическое распознавание речи продолжает оставаться
достаточно сложной задачей. В частности, одной из актуальных и нерешенных
проблем является разработка систем распознавания слитной речи, работающих в
реальных условиях, и высокоэффективных систем распознавания, независимых от
диктора.
В данной работе рассмотрена возможность
построения дикторонезависимой системы распознавания
изолированных слов на основе однослойной нейросети
[2]. В качестве распознаваемых слов использовался список сотрудников, состоящий
из 100 фамилий, в том числе достаточно схожих по звучанию. Обучение нейросети
осуществлялось при помощи алгоритма с учителем, когда заранее известен отклик
сети на каждый конкретный входной сигнал [2]. Для распознавания слова предложено использовать набор отсчетов вейвлет-преобразования временных реализаций [3] в качестве
входного сигнала нейросети. Тогда при условии, что
сеть обучена правильно, выходной сигнал будет
соответствовать номеру распознаваемого слова.
При разработке системы полагалось, что длительность
обрабатываемого временного интервала не превышает 2 с. Начало и конец каждого
слова определялись на основе энергетического метода [1] с уточнением по
величине числа переходов измеряемой реализации через нуль [4]. Слова,
произносимые диктором, записывались на микрофон сравнительно невысокого
качества при частоте дискретизации 8000 Гц и разрешении 16 бит на отсчет, после
чего производилась компьютерная обработка данных. В результате согласно [3]
получались отсчеты вейвлет-преобразования, которые
затем подавались на вход нейросети. Перед записью каждого
слова производилась запись стационарного фонового шума. В процессе обучения нейросети каждое слово надиктовывалось
одинаковое количество раз как для входного, так и для
выходного (проверяющего) сигнала.
Предложенная система распознавания изолированных
слов была реализована программно с помощью языка высокого уровня C и аппаратно
на базе цифрового сигнального процессора TMS320C6416T. В ходе ее тестирования
было установлено, что точность правильного распознавания (при объеме словаря до
100 слов) для различных дикторов составляет не менее 98 %.
Литература
1. Чернояров О.В., Черноярова Е.В., Максимов. Д.А. Алгоритм распознавания
изолированных слов с настройкой на диктора // Радиолокация, навигация, связь /
Материалы X международной научно-технической конференции. – Т.2. –
Воронеж: ВНИИС, 2004. – С. 894-911.
2. Заенцев И.В. Нейронные сети: основные модели.
– Воронеж: ВГУ, 1999.
3. Терехов
С.А. Вейвлеты и нейронные сети Лекция для школы-семинара
"Современные проблемы нейроинформатики". –
М.: МИФИ, 2001.
4. Рабинер Л.Р., Шафер Р.В.
Цифровая обработка речевых сигналов: Пер. с англ. – М.: Радио и связь, 1981.