Самостоятельная работа по теме:

«Разработка модели речевого вокодера для систем подвижной радиосвязи»

Цель работы: исследование существующих вокодеров для кодирования и передачи речи в сжатом виде; разработка модели речевого вокодера для систем подвижной радиосвязи на основе метода, выбранного в результате исследования.

 

Введение

      Речь – это один из самых сложных сигналов из всех существующих в природе. Речевой сигнал (РС) – это процесс передачи речевого сообщения (акустические, электрические, механические и другие процессы). Речевое сообщение создается в мозгу человека и с помощью органа речи излучается в окружающее пространство в виде акустического сигнала звукового поля. Акустический сигнал, воздействуя на барабанную перепонку уха превращается в механический сигнал, а во внутреннем ухе – в сигнал нервной системы. Таким образом воссоздается первоначальное сообщение.

     Речь состоит из предложений, фраз, слов, слогов. Наименьшей единицей является звук. Между звуками речи имеется связь: вероятность появления каждого звука зависит как и от предыдущего, так и от последующего звука. Каждому человеку присуща своя манера произнесения звука. Поэтому существует несколько тысяч звуков, отличающихся по субъективному восприятию друг от друга.

     Наименьшая звуковая единица данного языка называется фонемой (буква – это то, что мы читаем и хотим произнести, фонема – то, что фактически произносим). Поэтому число фонем всегда больше числа букв во всех языках. Фонемы делятся на гласные и согласные звуки. Около каждой фонемы группируются ее различные возможные варианты произношения, поэтому можно определить границы фонемных областей. Но зачастую эти границы могут перекрывать друг друга. Таким образом наблюдается смешивание звуков.

     В процессе речеобразования сообщение представляет собой акустическую волну. Источником её является артикуляционный аппарат человека (рис. 1). Воздух проходит через голосовые связки, которые могут находиться в сомкнутом и разомкнутом состояниях, в результате чего акустическая волна приобретает импульсный характер и поступает в глотку, носовую и ротовую полости. Гортань и ротовую полость называют голосовым трактом. Результатом работы голосового тракта является акустические колебание.

Рисунок 1 – Артикуляционный аппарат человека

     Речеобразующий тракт состоит из ларингальных, фарингальных, ротовых и носовых полостей. Изменение конфигурации голосового тракта и колебания голосовых связок взаимосвязаны, в результате вся речеобразующая система функционирует как единый сложный механизм.

     Голосовой тракт и носовую полость обычно представляют в виде системы резонаторов (секций цилиндрических труб) с изменяющейся по продольной оси площадью поперечного сечения, которая описывается функцией площади поперечного сечения. 


Рисунок 2 – Модель голосового тракта

     Для представления простейшей модели нужно иметь три основных резонатора и один дополнительный, для имитации округлости губ (рис. 2). Первый резонатор (с площадью А1 и длиной l1) имитирует гортань и ротовую полость до сужения, создаваемого языком; второй (A2 и l2) – участок сужения между языком и твердым небом; третий (А3 и l3) – переднюю ротовую полость; четвертый (A4 и l4) – проход между губами. В процессе речеобразования эти размеры постоянно изменяются.    

     Все звуки речи могут быть разделены на три группы:

1.     Вокализованные – гласные и звонкие согласные звуки. Возникают вследствие проталкивания воздуха через напряженные вибрирующие голосовые связки. 

2.     Невокализованные – глухие согласные. Образуются вследствие возбуждения при сужении голосового тракта в каком-либо месте.

3.     Взрывные (смычковые). Эти согласные характеризуются тем, что образуются путем смычки тех или иных органов артикуляции.

     Образованный с помощью вышеописанных механизмов акустический сигнал, называемый функцией возбуждения речи, может принимать три разные формы: квазипериодических импульсов, непрерывного шума и единичного импульса.

     Для образования речевых звуков функция возбуждения подвергается «фильтрации» в голосовом тракте. Частотная характеристика тракта изменяется из-за перемещения языка, губ и других органов артикуляции. Таким образом функцию возбуждения можно рассматривать как несущую, параметры которой непрерывно изменяются во времени под воздействием модулирующего процесса, в котором содержится вся фонетическая информация.

     При произнесении вокализованных звуков сигналом возбуждения является последовательность импульсов, создаваемых изменениями в голосовых связках. Эти импульсы проходят через речеобразующий тракт (систему резонаторов), который осуществляет фильтрацию сигнала возбуждения.

     При произнесении шумовых звуков сигналом возбуждения является фрикативный шум, возникающий при трении воздуха о стенки ротовой полости. При  взрывных сигнал возбуждения возникает из-за ударного воздействия воздушной струи на полости речеобразующего тракта.

      Трубы голосового тракта определяются формантами – резонансными частотами речеобразующего тракта.  Форманты зависят от размеров и формы голосового тракта. Форма голосового тракта описывается набором формантных частот (определенным спектром). То есть форманты – это участки частотного диапазона около спектральных максимумов, определяющие распознавание и восприятие конкретных звуков речи.

Характеристики и структурные параметры речи 

       Человеческую речь можно представить в виде колебаний сложной формы. Форма колебания зависит от произносимых слов, тембра голоса, интонации. Подобное колебание можно описать с помощью следующими параметрами:

·        Статистическое распределение звуков, слогов и слов при произношении речи;

·        Временные характеристики звуков;

·        Основной тон речи;

·        Спектральные характеристики речи;

·        Распределение формантных частот.

     Также эти параметры занимают важное место при построении систем кодирования речи.

     Каждый звук является реализацией случайного процесса с  определенными  характеристиками. Длительность отдельных звуков речи составляет от 20 до 350 мс. При этом гласные звуки имеют большую длительность (в среднем около 200 мс), чем согласные (около 80 мс, а звук "п" - около 30 мс). Звонкие звуки речи,  особенно гласные, имеют высокий уровень интенсивности,  глухие - низкий - в среднем на 20 дБ ниже уровня гласных.  Динамический диапазон уровней речи находится в  пределах  35...45  дБ.

     Речь с физической точки  зрения  состоит  из  последовательности звуков речи с паузами между их группами. Паузой считается отсутствие речи в течение времени, большего 350 мс. В целом средняя длительность пауз составляет 16 % длительности речи, а средняя скорость речи от 10 до 15 звуков в секунду.

     Важной характеристикой вокализованных звуков является частота основного тона – частота колебаний голосовых связок или частота пер­вой гармоники спектра вокализованных звуков.

     У вокализованных звуков спектр является дискретным с большим числом гармоник (до 40), которые имеют частоту, кратную частоте основного тона. Частота основного тона изменяется в пределах от 60-70 Гц для низких мужских голосов до 450-500 Гц для высоких женских голо­сов. Средняя частота основного тона для мужских голосов 140 Гц, для женских — 250 Гц. Медленное изменение частоты основного тона при произнесении речи создает эмоциональную  окраску  и называется интонацией.  Пример плотности распределения вероятности часто­ты основного тона  представлен на рис. 3:


Рисунок 3 -  Плотность распределения вероятности частоты основного тона

Спектр речизависимость среднего в течение длительного време­ни наблюдения спектрального уровня речи от частоты. Спектральный состав звуков речи весьма различен. Каждому звуку речи соответствует свое распределение энергии по частотному диапазону, называемое формантным рисунком. Формантные частоты, на которых происходит максимальное увеличение амплиту­ды спектральных составляющих, образуют формантные  области частотного диапазона. Например, для глас­ных и звонких согласных (вокализованных звуков речи) энергетический спектр (формантный рисунок) имеет вид, представленный на рис. 4:


Рисунок 4 – формантный рисунок вокализованных звуков

     Форманта характеризуется амплитудой Аi, частотой Fi, и шириной полосы DFi. (На рисунке 4 А1-А3 - амплитуды формант; F1-F3 - частоты формант; DF1 - ширина первой форманты).  Различные звуки имеют разное число формант: гласные - до че­тырех формант, глухие согласные до 5-6 формант. Наиболее информативны первые три форманты: F1F2 и F3. Первые две (основные) форманты определяют произносимый звук речи, а остальные (вспомогательные) характеризуют индивидуальную для каждого человека окраску, тембр речи. Некоторые звуки отчетливо распознаются по одной первой форманте F1 ("а", "о", "у"). Это происходит потому, что низкие частоты обладают большой энергией. Формантный рисунок глухих звуков выражен слабо. У них спектр не дискретный, а сплошной и характеризуется только огибающей спектра.

 

Вокодеры. Основные понятия.

Полосовой вокодер

 

     Вокодеры представляют собой устройства, осуществляющие параметрическое сжатие речевых сигналов. Компрессия речевых сигналов на передающей стороне производится в анализаторе, выделяющем из речевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемной стороне с помощью местных источников сигнала, управляемых принятыми параметрами, синтезируется речевой сигнал. Работа вокодера основана на моделировании человеческой речи с учетом ее характерных особенностей. При вычислении непосредственного изменения амплитуды сигнала вокодера получают параметры модели речеобразования для получения другого сигнала, максимально схожего с исходным. Таким образом, осуществляется анализ для последующего синтеза речи. Подсчитанные параметры передаются по каналу связи.

     Вокодеры можно разделить на два класса:

1.     Речеэлементные

2.     Параметрические

     В речеэлементных вокодерах при кодировании распознаются произносимые элементы речи (например, фонема) и на выход кодера подаются только их номера. В декодере эти элементы создаются по правилам речеобразования или берутся из памяти декодера.

     Фонемные вокодеры предназначены для получения предельной компрессии речевых сигналов. Область применения фонемных вокодеров – линии командной связи, управление и говорящие автоматы информационно-справочной службы. В таких вокодерах происходит автоматическое распознавание слуховых образов, а не определение параметров речи и, соответственно, теряются все индивидуальные особенности диктора.

     Параметрический вокодер представляет собой устройство, которое совершает так называемое параметрическое компандирование речевых сигналов. В параметрических вокодерах с речевого сигнала выделяют два типа параметров и по этим параметрам в декодере синтезируют речь:

       Параметры, которые характеризуют источник речевых колебаний (генераторную функцию) – частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона (огласованные или гортанные звуки), шумового сигнала (шипящие и свистящие звуки);

       Параметры, которые характеризуют огибающую спектра речевого сигнала.

     В декодере, соответственно, по заданным параметрам генерируются основной тон, шум, а затем пропускаются через гребенку полосовых фильтров для восстановления огибающей спектра речевого сигнала.

     По принципу определения параметров фильтровой функции различают вокодеры:

       полосные;

       формантные;

       ортогональные.

     В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант центральная частота, амплитуда и ширина спектра. В ортогональных вокодерах огибающая мгновенного спектра разлагается на составные части в ряд по выбранной системе ортогональных базисных функций. Рассчитанные коэффициенты этого разложения передаются на приемную сторону.

     В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и ФНЧ с частотой среза достаточной для выделения огибающей канального сигнала.

     Полосовой вокодер (рис. 5) представляет собой совокупность двух основных частей – анализирующей (передающая сторона) и синтезирующей (принимающая сторона), которые содержат идентичные наборы (гребенки) полосовых фильтров, перекрывающих определенный частотный интервал.


Рисунок 5 – Структурная схема полосового вокодера

     Фильтры блока анализа обеспечивают тональное разделение спектра сигнала. Для перекрытия всей полосы звуковых частот, наряду с полосовыми, в гребенке можно использовать фильтры НЧ и ВЧ (в самых низкочастотном и высокочастотном каналах). Детектор и фильтр НЧ в каждом канале выделяют огибающую сигнала данного канала, и каждая из них характеризует энергию речевого спектра в соответствующей полосе частот для фрагмента речи. Для более компактной передачи выходы каждого из каналов могут логарифмироваться и кодироваться с помощью дельта-импульсной кодовой модуляции (ДИКМ).


Рисунок 6 - АЧХ набора ПФ (для трёх полос)

     От числа частотных полос зависит разборчивость синтезированной речи. Хорошие результаты получаются при числе каналов 15-16 (полоса ~ 100Гц…4кГц). Для улучшения качества восстановленной речи при выборе центральных частот и ширины полос пропускания канальных фильтров целесообразно использовать критические полосы слуха.

     При выборе типа фильтров необходимо иметь в виду, что спектральные составляющие сигнала вблизи центральной частоты резонансных фильтров подвергаются существенным фазовым сдвигам, а это приводит к изменению тембра, даже если амплитудные соотношения сохранены. Причем при увеличении порядка фильтров фазовый сдвиг увеличивается, являясь причиной характерной для вокодера неестественной речи. С другой стороны, при недостаточной крутизне спада АЧХ фильтров появляется «смазанность» синтезированной речи. Практика показывает, что оптимальный результат соответствует АЧХ фильтров при крутизне их спада примерно 36дБ на октаву.

      Частоту среза канального фильтра НЧ выбирают в десять раз меньшей центральной частоты полосового фильтра канала, однако возможно использование одинаковых фильтров низких частот с частотой среза 25 Гц, что несколько снижает качество восстановленного речевого сигнала.