BC/NW 2010, №1 (16): 10.3

 

ДИКТОРОНЕЗАВИСИМАЯ СИСТЕМА РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ НА ОСНОВЕ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ

Рытиков М.А., Широков Е.Е., Чернояров О.В.

(МТУСИ)

 

В течение последнего ряда лет наблюдается резкий рост интереса к системам распознавания речи. На современном этапе стало возможным практическое воплощение идей распознавания и понимания речи системами различного назначения [1]. Несмотря на очевидный прогресс в данной области исследований, автоматическое распознавание речи продолжает оставаться достаточно сложной задачей. В частности, одной из актуальных и нерешенных проблем является разработка систем распознавания слитной речи, работающих в реальных условиях, и высокоэффективных систем распознавания, независимых от диктора.

В данной работе рассмотрена возможность построения дикторонезависимой системы распознавания изолированных слов на основе однослойной нейросети [2]. В качестве распознаваемых слов использовался список сотрудников, состоящий из 100 фамилий, в том числе достаточно схожих по звучанию. Обучение нейросети осуществлялось при помощи алгоритма с учителем, когда заранее известен отклик сети на каждый конкретный входной сигнал [2]. Для распознавания слова предложено использовать набор отсчетов вейвлет-преобразования временных реализаций [3] в качестве входного сигнала нейросети. Тогда при условии, что сеть обучена правильно, выходной сигнал будет соответствовать номеру распознаваемого слова.

При разработке системы полагалось, что длительность обрабатываемого временного интервала не превышает 2 с. Начало и конец каждого слова определялись на основе энергетического метода [1] с уточнением по величине числа переходов измеряемой реализации через нуль [4]. Слова, произносимые диктором, записывались на микрофон сравнительно невысокого качества при частоте дискретизации 8000 Гц и разрешении 16 бит на отсчет, после чего производилась компьютерная обработка данных. В результате согласно [3] получались отсчеты вейвлет-преобразования, которые затем подавались на вход нейросети. Перед записью каждого слова производилась запись стационарного фонового шума. В процессе обучения нейросети каждое слово надиктовывалось одинаковое количество раз как для входного, так и для выходного (проверяющего) сигнала.

Предложенная система распознавания изолированных слов была реализована программно с помощью языка высокого уровня C и аппаратно на базе цифрового сигнального процессора TMS320C6416T. В ходе ее тестирования было установлено, что точность правильного распознавания (при объеме словаря до 100 слов) для различных дикторов составляет не менее 98 %.

 

Литература

1. Чернояров О.В., Черноярова Е.В., Максимов. Д.А. Алгоритм распознавания изолированных слов с настройкой на диктора // Радиолокация, навигация, связь / Материалы X международной научно-технической конференции. – Т.2. – Воронеж: ВНИИС, 2004. – С. 894-911.

2. Заенцев И.В. Нейронные сети: основные модели. – Воронеж: ВГУ, 1999.

3. Терехов С.А. Вейвлеты и нейронные сети Лекция для школы-семинара "Современные проблемы нейроинформатики". – М.: МИФИ, 2001.

4. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. – М.: Радио и связь, 1981.