Самостоятельная работа по теме: «Исследование работы речевых вокодеров для систем подвижной радиосвязи»

Цель работы: исследование существующих вокодеров для кодирования и передачи речи в сжатом виде.

 

Ведение

     Речь – это один из самых сложных сигналов из всех существующих в природе. Речевой сигнал  – это процесс передачи речевого сообщения (акустические, электрические, механические и другие процессы).  Для кодирования-декодирования речевого сигнала и его передачи по каналу связи существуют такие устройства, как вокодеры. Современные вокодеры  широко применяются в цифровой телефонной связи, в том числе – Internet-телефонии. Причиной тому – высокая степень сжатия информации.

     Для достижения приемлемого качества речевой связи необходимо сохранить все кратковременные спектры мощности речевого сигнала. Основная задача вокодера заключается в минимизации суммарного количества информации о сигнале речи, необходимого для воспроизведения разборчивой речи, с использованием меньшего числа бит, чем это необходимо при обычном кодировании и декодировании. Вокодеры обычно воспроизводят ненатуральное звучание речи и поэтому использовались для записи такой информации, как сообщение «неправильно набран номер», шифрования речи для передачи по аналоговым телефонным каналам, а также в компьютерах. Но работа современных вокодеров стремится к моделированию человеческой речи с учетом всех ее характерных особенностей. Тут появляются новые проблемы, одной из которых является определение частоты основного тона.

Актуальность темы

     В настоящее время применение речевого сигнала быстро увеличивается. Наиболее популярными являются такие технологии, как: распознавание речевых команд, преобразование речи в текст, распознавание и верификация дикторов. Поэтому совершенствование таких устройств, как речевые вокодеры, является актуальной задачей перед исследователями, занимающимися кодированием речи.

Классификация вокодеров

     Вокодеры разделяют на две группы: речеэлементные и параметрические. В речеэлементных вокодерах при кодировании распознаются произносимые элементы речи и на выход кодера подаются только их номера. В декодере эти элементы создаются по правилам речеобразования или берутся из памяти декодера. В таких вокодерах приходится решать задачу распознавания элементов речи.

     Параметрические вокодеры можно подразделить на:

  • полосовые (канальные);
  • формантные
  • ортогональные
  • корреляционные
  • гомоморфные
  • липредеры

     Такие вокодеры выделяют из речевого сигнала два вида параметров: параметры, характеризующие спектральную огибающую  сигнала (фильтровую функцию), и параметры, характеризующие сам источник речевого сигнала (генераторную функцию). 


Рисунок 1 – Блок-схема параметрического вокодера

     На схеме: А – анализатор входного сигнала, который на основе сегмента входной реализации речевого сигнала находит параметры, подлежащие передаче. Устройство Т-Ш (обнаружитель «Тон-шум») осуществляет различение типа сегмента сигнала – вокализованный он, или фрикативный, а ДОТ – детектор  основного тона (блок оценки параметров основного тона) в случае, если сегмент относится к вокализованному типу. УО – устройство  объединения сигналов для передачи через канал связи, УР – устройство разделения сигналов, переданных через канал. На приёмной стороне на основе принятых параметров происходит синтез речевого сигнала. Для этого используются ГОТ – генератор  основного тона, ГШ – генератор шума, К – ключ. С – синтезатор, в котором воссоздаётся речевой сигнал.

1. Полосовой вокодер

В полосовых вокодерах спектр речи делится на 7-20 полос (каналов) с помощью полосовых фильтров. Анализатор определяет величину средней интенсивности речевого сигнала в каждой полосе. Эти величины передаются через канал связи. Чем большее число каналов используется в вокодере, тем больше натуральность и разборчивость речи. Блок-схема полосного вокодера изображена на рисунке 2:


Рисунок 2 – Блок-схема полосового вокодера

     В полосовых вокодерах спектр речи делится на 7-20 полос (каналов) с помощью полосовых фильтров. Анализатор определяет величину средней интенсивности речевого сигнала в каждой полосе. Эти величины передаются через канал связи. Чем большее число каналов используется в вокодере, тем больше натуральность и разборчивость речи. Но чем больше информации о частотных полосах, тем больше придется передавать информации по цифровому тракту.

     Полосовой вокодер представляет собой совокупность двух основных частей – анализирующей (передающая сторона) и синтезирующей (принимающая сторона), которые содержат идентичные наборы (гребенки) полосовых фильтров, перекрывающих определенный частотный интервал. Фильтры блока анализа обеспечивают тональное разделение спектра сигнала. Детектор и фильтр НЧ в каждом канале выделяют огибающую сигнала данного канала, и каждая из них характеризует энергию речевого спектра в соответствующей полосе частот для фрагмента речи. Для более компактной передачи выходы каждого из каналов могут логарифмироваться и кодироваться с помощью дельта-импульсной кодовой модуляции (ДИКМ).

     К основным недостаткам полосных вокодеров, ухудшающим разборчивость синтезированной речи, относят появление больших интерференционных искажений огибающей спектра, возникающих из-за несогласованности ФЧХ полосных фильтров, а также искажения спектральной картины в формантной области, связанные с попаданием форманты в межфильтровую зону.

2. Ортогональный вокодер

     Принцип действия ортогональных вокодеров базируется на возможности представления спектральной огибающей речевого сигнала в виде суммы ортогональных функций. В этих случаях, в отличие от других вокодеров, спектральная огибающая на приёме воспроизводится не по отдельным ординатам, а в виде суммы тех же ортогональных функций.

      Проще говоря, ортогональные вокодеры отличаются от полосовых тем, что функции фильтров выполняются с помощью цифровых методов. Это либо быстрое преобразование Фурье, либо ортогональные функции Уолша (периодические дискретные функции, принимающие значения 0 или 1). 

     В ортогональных вокодерах, в отличие от .полосных, сигнал-параметры неравнозначны и некоррелированы друг с другом. Поэтому искажение одного из них иногда приводит к значительным искажениям передачи. Особенно заметно это свойство ортогональных вокодеров сказывается на качестве – передачи речи при небольшом числе передаваемых параметров. Другим недостатком гармонических вокодеров, также проявляющимся при небольшом числе передаваемых параметров, является искажение формы формантных кривых: вместо резонансных получаются кривые синусоидальной формы и появляются дополнительные максимумы – ложные форманты, как показано на рисунке 3:


Рисунок 3 – Искажение формы формантных кривых

Появление таких искажений придает звучанию синтезированной речи назальность. Чтобы приблизить форму спектральной огибающей к типичной формантной структуре, можно использовать квадратичный ортогональный (гармонический) вокодер (рис. 4):


Рисунок 4 – Блок-схема квадратичного ортогонального вокодера

     На приемной стороне сигнал-параметры управляют двумя синтезаторами линейного типа. На вход линии задержки первого синтезатора подается сигнал от источника речевых колебаний, т. е. от генератора ОТ или генератора шума, а на вход линии задержки второго синтезатора подается сигнал с выхода первого синтезатора. В результате этой операции происходит «квадрирование» огибающей спектра, получаемая спектральная огибающая становится близкой к исходной как по формантным кривым, так и вследствие устранения ложных формант. Экспериментально доказано, что в данном случае разборчивость лучше по сравнению с линейным вокодером.

3. Липредеры (вокодеры с линейным предсказанием)

     Вокодеры с линейным предсказанием являются самыми распространёнными  в  современных  системах  передачи  речи. Именно метод кодирования с линейным предсказанием и применяются в сотовой связи. Суть метода в том, что для прогноза текущего отсчета речевого сигнала можно использовать линейно взвешенную сумму предшествующих отсчетов, то есть предсказываемый отсчет. При кодировании (на передаче) производится оценка параметров ФЛП и параметров сигнала возбуждения, а при декодировании (на приеме) - сигнал возбуждения пропускается через фильтр-синтезатор, на выходе которого получается восстановленный сигнал речи. Этот  метод  становится  доминирующим  при оценке  основных  параметров  речевого  сигнала,  таких,  как  период  основного тона, форманты, спектр, а также при сокращенном представлении речи с целью ее  низкоскоростной  передачи  и  экономного  хранения.  Важность  метода  обусловлена  высокой  точностью  получаемых  оценок  и  простотой  вычислений. Рассмотрим сначала модель речевого тракта, которая позволяет использовать методы линейного предсказания для анализа и синтеза речевого сигнала:


Рисунок 5 – Блок-схема модели речеобразования

Рассмотрим структурную схему вокодера с линейным предсказанием (рис. 6):


Рисунок 6 – Структурная схема липредера

     На подготовительном этапе выполняют аналого-цифровое преобразование речевого сигнала и сегментацию цифрового потока: для последующей обработки выбирают отсчеты сигнала на интервале длительностью 20 мс, что при частоте дискретизации 8 кГц обеспечивает в каждом сегменте 160 обрабатываемых отсчетов. После сегментации отсчетов речевого сигнала в кодере последовательно выполняются следующие три процедуры:

1)     кратковременный (формантный) анализ с использованием процедуры линейного предсказания, в результате чего получают первый остаточный сигнал;

2)     долговременный анализ с использованием линейного предсказания для определения параметров основного тона, в результате чего получают второй остаточный сигнал , близкий по своим характеристикам к шумовому, поскольку между отсчетами этого сигнала корреляция мала;

3)     аппроксимация второго остаточного сигнала с целью формирования сигнала возбуждения.

     Восстановленный сигнал достаточно близок к исходному сигналу на входе кодера. Выполнив цифро-аналоговое преобразование и пропустив сигнал через ФНЧ, получают восстановленный аналоговый сигнал. Все процедуры обработки сигнала в кодере и декодере выполняются цифровыми методами. Показанные на рис. 6 модули липредера фактически являются блоками программного обеспечения.

4. Формантные вокодеры

      В формантных вокодерах спектральная огибающая речевого сигнала аппроксимируется комбинацией нескольких простых резонансных кривых. Принципы построения форматного вокодера во многом аналогичны принципам естественного речеобразования и приёма речи. Поскольку речевой тракт представляет собой комплекс резонаторов, резонансные частоты и добротности которых изменяются в процессе речи в соответствии с сигналами, идущими из центральной нервной системы, то и в формантном вокодере происходит выделение из речевого сигнала управляющих сигналов (сигнал-параметров), которые на приёме воздействуют на резонансные контуры и воспроизводят требуемую огибающую спектра. 

Структурная схема формантного вокодера:


Рисунок 7 – Структурная схема формантного вокодера

     На передающей стороне в анализаторе вокодера выделяются структурные сигналы-параметры первых трех формант, а также интонационные параметры. В качестве оценки амплитуды форманты используется её усредненный уровень, выделяемый с помощью полосовых фильтров, выпрямителей и ФНЧ. Для выделения формантных частот применяются метод ро-метра, а также методы дискриминаторный и фильтрационный. Синтезатор формантного вокодера состоит из трех управляемых резонансных контуров (УК) с плавной перестройкой их частоты под приходящий параметр. На модуляторах происходит взаимодействие резонансного и колебательного процессов в зависимости от уровня соответствующего сигналапараметра. Считается, что с помощью формантного вокодера можно получать достаточно высококачественный синтез речи, как по разборчивости, так и по натуральности — даже при скорости цифрового потока порядка 1200 бит/с. При этом коэффициент компрессии формантного вокодера не менее чем вдвое выше, чем полосного.

Задачи 

На вторую часть учебно-исследовательской работы поставлены задачи моделирования полосового вокодера в программной среде Matlab и исследование работы детектора основного тона, находящегося в составе модели.

Заключение

Так как моя учебно-исследовательская работа оказалась очень масштабной, в размещенном выше сообщении я указала основные виды вокодеров и описания их работы. По факту их теоретические исследования проведены намного основательнее. Для подтверждения сказанного прикрепляю файл с защищенной УИР.