BC/NW 2009; №2 (15):6.1

 

РАЗБИЕНИЕ ВХОДНЫХ СИГНАЛОВ ОГРАНИЧЕННОГО НАБОРА КОМАНД ВЬЕТНАМСКОЙ РЕЧИ НА СЛОГА

Евсеев А.И., Нгуен Ван Хунг

(ГОУВОП «Московский энергетический институт (технический университет)», Россия)

Аннотация. В данной статье рассматривается задача разбиения входных сигналов ограниченного набора команд вьетнамской речи на слога в словосочетаниях вьетнамской речи путём обнаружения места максимум энергии на расстоянии слога.

 

Определив момент начала и конца словосочетания в поэтапном процессе распознавания ограниченного набора команд вьетнамской речи, следует подчеркнуть, что деление речевых сигналов словосочетаний (команд) на слога определяет метод последующего распознания ограниченного набора команд.

Для правильного деления речевых сигналов данного словосочетания на слога, необходимо решить 2 проблемы:

1. Определить количество слогов в речевой команде. Вьетнамский язык является слоговым языком, а не многосложным, как, например, русский или английский... Каждое отдельное слово соответствует лишь одному слогу. Во вьетнамском языке присутствует и 6 тонов, обозначающихся надстрочными знаками:

[ \ ], [ / ], [ ? ], [ ~ ], [ . ] и отсутствие знака, носителями которых служат гласные. Вместе с тем, эти знаки не оказывают влияния на «односложную» характеристику вьетнамского слова. Именно поэтому объектом  для решения задач по делению потока речевых сигналов на слога во вьетнамском языке являются слова.

2. Вторая проблема, которую необходимо решить - найти специфические особенности сигналов всех слов данного языка для выработки аналитических методов указанного деления. Во вьетнамском языке  такими особенностями являются энергия и длительность сигналов  соответствующих слов и словосочетаний. Как  уже говорилось выше, входя в группу аустроазиатских языков, вьетнамский язык является  слоговым. Алфавит вьетнамского языка состоит из 29 букв :

H1

 

 

 Кроме того, в данном языке имеется десять дифтонгов, состоящих из двух букв и один дифтонг из трёх букв:

CH, GH, GI, KH, NG, NGH, NH, PH, QU, TH, TR

( ch,  gh,  gi,  kh,  ng,  ngh,  nh,  ph,  qu,  th,  tr )

 

     Вьетнамское слово (слог) не длинное. Самое большое слово состоится из семи букв (например: nghiêng, в котором  есть и  двойной [ ng ] и тройной [ ngh ] дифтонги). Самое короткое слово – из одного (например: еTôi e rằng»). Каждое слово в максимуме имеет 3 части:

1.   Начальный согласный (не обязательно)

2.   Гласный  - с или без тональных знаков (обязательно)

3.   Законченный согласный (не обязательно)

Гласные во вьетнамском языке представлены монофтонгами и дифтонгами, которые состоят из  двух или трех гласных; произносимых вместе, а не как отдельные звуки.

Монофтонги:

H2

Дифтонги (из двух гласных)

H3

 

Дифтонги (из трех гласных)

H4

 

Во вьетнамском языке существуют  надстрочные (над гласным) знаки, которые придают слову  разнообразные тона и смысловые значения:

H5

 

С разными надстрочными знаками слово приобретает разные тона при произношении и смысл. Например: слово [ВА] = Папа, а [BÀ] = Бабушка.

В процессе исследования был сделан вывод о том, что  тональные изменения слова при произношении с разными знаками непременно связанно с изменениями основного тона  произнесенных слогов по схеме:

 

H6

H6

Рис. 1

 

Исследуя процесс произношения словосочетаний  во вьетнамском языке, была поставлена цель – делить поток полученных речевых сигналов на слоги, что помогает решить вопрос по исследованию и разработке методов автоматического распознавания ограниченного набора команд вьетнамской речи.

 

Некоторые аргументы к методу изучения

Рассматриваем к примеру  словосочетание из 4 слов "Hiển thị bình thường", соответственно из 4-х слогов:

H7

Рис. 2

 

Измеряем последовательность значений энергии длительностью в 256 отсчетов во фрейме речевого сигнала по следующей формуле:

H8

Сдвиг соседних интервалов равен 32 отсчетам энергии.

В результате получается график энергии (см. рис.3)

H9

Рис. 3

 

Практика показывает:

Каждый слог имеет слоговой пик, где энергия сигнала достигает самой большой величины

Дистанция между  двумя  ближайшими слоговыми пиками в словосочетании всегда выше 32х50 = 1600 отсчетов, что соответствует  промежутку времени  (1600 / 11025) x 1000 = 145,125 (мс). Данная величина требует уточнения для разных дикторов и темпов произношения.

Между двумя слоговыми пиками имеется точка, соответствующая границе, которая разделяет слога.

Точка границы соответствует самой малой  энергии между пиками.

Имеют место случаи, когда  точка границы, где энергия сигнала имеет самую малую величину, является  точкой окончания глухого шипящего, а не слога. В этом случае, исходя из того что число переходов через нуль глухого шипящего согласного большое, можно определить точку его начала и эта точка является точкой-границей между слогами. (Во вьетнамском языке глухой шипящий согласный всегда стоит в начале слова).

Практика показала, что число переходов через нуль глухого шипящего согласного во вьетнамском языке  всегда больше 17 переходов через нуль на 100 отсчетов.

Исходя из полученных результатов исследования, предлагаем следующий алгоритм определения точки границы между двумя слогами:

Определение  слоговых пиков

Определение точки границы между слогами

 

Некоторые примеры из полученных результатов:

 

 

H11

Рисунок 4: Команда «Hiển thị bình thường»

 

 

 

H12

Рисунок 5: Команда «Hiển thị trang in»

 

 

Алгоритм проверен на 59 командах с общим количеством 140 слогов и с 89 разными слогами на вьетнамском языке. Из них были 40 двухслоговых, 16 команд из 3 слогов и 3 команды из 4 слогов. В результате  были разделены словосочетания на слоги, соответствующие отдельным словам без ошибок. Однако, эксперимент проверен только на речи одного диктора. Необходимо увеличить количество экспериментов на разных людях и при разных темпах произношения.

H10

Рисунок 6: Блок-схема алгоритма

 

Литература

1.     Евсеев А.И., Нгуен Ван Хунг, Обнаружение начала и конца слов и пауз на изолированных словах и в словосочетаниях вьетнамского языка». кафедра ВМСС, институт АВТИ, МЭИ (ТУ).

2.     http://ngonngu.net/index.php?p=305

3.     http://www.vietlex.com/vietnamese.htm

4.     http://vietsciences.free.fr/vietnam/tiengviet/nguongocchuquocngu1.htm