Самостоятельная работа по теме: «Исследование работы речевых вокодеров для систем подвижной радиосвязи»
Цель работы: исследование
существующих вокодеров для кодирования и передачи речи в сжатом виде.
Ведение
Речь – это один из самых сложных сигналов из всех существующих в природе. Речевой сигнал – это процесс передачи речевого сообщения (акустические, электрические, механические и другие процессы). Для кодирования-декодирования речевого сигнала и его передачи по каналу связи существуют такие устройства, как вокодеры. Современные вокодеры широко применяются в цифровой телефонной связи, в том числе – Internet-телефонии. Причиной тому – высокая степень сжатия информации.
Для достижения приемлемого качества речевой связи необходимо сохранить все кратковременные спектры мощности речевого сигнала. Основная задача вокодера заключается в минимизации суммарного количества информации о сигнале речи, необходимого для воспроизведения разборчивой речи, с использованием меньшего числа бит, чем это необходимо при обычном кодировании и декодировании. Вокодеры обычно воспроизводят ненатуральное звучание речи и поэтому использовались для записи такой информации, как сообщение «неправильно набран номер», шифрования речи для передачи по аналоговым телефонным каналам, а также в компьютерах. Но работа современных вокодеров стремится к моделированию человеческой речи с учетом всех ее характерных особенностей. Тут появляются новые проблемы, одной из которых является определение частоты основного тона.
Актуальность темы
В настоящее время применение речевого сигнала быстро увеличивается. Наиболее популярными являются такие технологии, как: распознавание речевых команд, преобразование речи в текст, распознавание и верификация дикторов. Поэтому совершенствование таких устройств, как речевые вокодеры, является актуальной задачей перед исследователями, занимающимися кодированием речи.
Классификация вокодеров
Вокодеры разделяют на две группы:
речеэлементные и параметрические. В речеэлементных вокодерах при кодировании
распознаются произносимые элементы речи и на выход кодера подаются только их
номера. В декодере эти элементы создаются по правилам речеобразования или
берутся из памяти декодера. В таких вокодерах приходится решать задачу
распознавания элементов речи.
Параметрические вокодеры можно подразделить на:
- полосовые (канальные);
- формантные
- ортогональные
- корреляционные
- гомоморфные
- липредеры
Такие вокодеры выделяют из речевого сигнала два вида
параметров: параметры, характеризующие спектральную огибающую сигнала (фильтровую функцию), и параметры,
характеризующие сам источник речевого сигнала (генераторную функцию).
Рисунок 1 – Блок-схема параметрического вокодера
На схеме: А – анализатор входного сигнала, который на основе сегмента входной реализации речевого сигнала находит параметры, подлежащие передаче. Устройство Т-Ш (обнаружитель «Тон-шум») осуществляет различение типа сегмента сигнала – вокализованный он, или фрикативный, а ДОТ – детектор основного тона (блок оценки параметров основного тона) в случае, если сегмент относится к вокализованному типу. УО – устройство объединения сигналов для передачи через канал связи, УР – устройство разделения сигналов, переданных через канал. На приёмной стороне на основе принятых параметров происходит синтез речевого сигнала. Для этого используются ГОТ – генератор основного тона, ГШ – генератор шума, К – ключ. С – синтезатор, в котором воссоздаётся речевой сигнал.
1. Полосовой вокодер
В полосовых
вокодерах спектр речи делится на 7-20 полос (каналов) с помощью полосовых
фильтров. Анализатор определяет величину средней интенсивности речевого сигнала
в каждой полосе. Эти величины передаются через канал связи. Чем большее число
каналов используется в вокодере, тем больше натуральность и разборчивость речи.
Блок-схема полосного вокодера изображена на рисунке 2:
Рисунок 2 – Блок-схема полосового вокодера
В полосовых вокодерах спектр речи делится
на 7-20 полос (каналов) с помощью полосовых фильтров. Анализатор определяет
величину средней интенсивности речевого сигнала в каждой полосе. Эти величины
передаются через канал связи. Чем большее число каналов используется в
вокодере, тем больше натуральность и разборчивость речи. Но чем больше
информации о частотных полосах, тем больше придется передавать информации по
цифровому тракту.
Полосовой вокодер представляет собой совокупность двух
основных частей – анализирующей (передающая сторона) и синтезирующей
(принимающая сторона), которые содержат идентичные наборы (гребенки) полосовых
фильтров, перекрывающих определенный частотный интервал. Фильтры блока анализа
обеспечивают тональное разделение спектра сигнала. Детектор и фильтр НЧ в
каждом канале выделяют огибающую сигнала данного канала, и каждая из них
характеризует энергию речевого спектра в соответствующей полосе частот для
фрагмента речи. Для более компактной передачи выходы каждого из каналов могут
логарифмироваться и кодироваться с помощью дельта-импульсной кодовой модуляции
(ДИКМ).
К основным недостаткам полосных вокодеров, ухудшающим разборчивость синтезированной речи, относят появление больших интерференционных искажений огибающей спектра, возникающих из-за несогласованности ФЧХ полосных фильтров, а также искажения спектральной картины в формантной области, связанные с попаданием форманты в межфильтровую зону.
2. Ортогональный вокодер
Принцип действия ортогональных вокодеров базируется на возможности представления спектральной огибающей речевого сигнала в виде суммы ортогональных функций. В этих случаях, в отличие от других вокодеров, спектральная огибающая на приёме воспроизводится не по отдельным ординатам, а в виде суммы тех же ортогональных функций.
Проще говоря, ортогональные вокодеры отличаются от полосовых тем, что функции фильтров выполняются с помощью цифровых методов. Это либо быстрое преобразование Фурье, либо ортогональные функции Уолша (периодические дискретные функции, принимающие значения 0 или 1).
В ортогональных вокодерах, в отличие от .полосных, сигнал-параметры неравнозначны и некоррелированы друг с другом. Поэтому искажение одного из них иногда приводит к значительным искажениям передачи. Особенно заметно это свойство ортогональных вокодеров сказывается на качестве – передачи речи при небольшом числе передаваемых параметров. Другим недостатком гармонических вокодеров, также проявляющимся при небольшом числе передаваемых параметров, является искажение формы формантных кривых: вместо резонансных получаются кривые синусоидальной формы и появляются дополнительные максимумы – ложные форманты, как показано на рисунке 3:
Рисунок 3 – Искажение формы формантных кривых
Появление таких искажений придает звучанию синтезированной речи назальность. Чтобы приблизить форму спектральной огибающей к типичной формантной структуре, можно использовать квадратичный ортогональный (гармонический) вокодер (рис. 4):
Рисунок 4 – Блок-схема квадратичного ортогонального вокодера
На приемной стороне сигнал-параметры управляют двумя синтезаторами линейного типа. На вход линии задержки первого синтезатора подается сигнал от источника речевых колебаний, т. е. от генератора ОТ или генератора шума, а на вход линии задержки второго синтезатора подается сигнал с выхода первого синтезатора. В результате этой операции происходит «квадрирование» огибающей спектра, получаемая спектральная огибающая становится близкой к исходной как по формантным кривым, так и вследствие устранения ложных формант. Экспериментально доказано, что в данном случае разборчивость лучше по сравнению с линейным вокодером.
3. Липредеры (вокодеры с линейным предсказанием)
Вокодеры с линейным предсказанием являются самыми распространёнными в современных системах передачи речи. Именно метод кодирования с линейным предсказанием и применяются в сотовой связи. Суть метода в том, что для прогноза текущего отсчета речевого сигнала можно использовать линейно взвешенную сумму предшествующих отсчетов, то есть предсказываемый отсчет. При кодировании (на передаче) производится оценка параметров ФЛП и параметров сигнала возбуждения, а при декодировании (на приеме) - сигнал возбуждения пропускается через фильтр-синтезатор, на выходе которого получается восстановленный сигнал речи. Этот метод становится доминирующим при оценке основных параметров речевого сигнала, таких, как период основного тона, форманты, спектр, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и простотой вычислений. Рассмотрим сначала модель речевого тракта, которая позволяет использовать методы линейного предсказания для анализа и синтеза речевого сигнала:
Рисунок 5 – Блок-схема модели речеобразования
Рассмотрим структурную схему вокодера с линейным предсказанием (рис. 6):
Рисунок 6 – Структурная схема липредера
На
подготовительном этапе выполняют аналого-цифровое преобразование речевого
сигнала и сегментацию цифрового потока: для последующей обработки выбирают
отсчеты сигнала на интервале длительностью 20 мс, что при частоте дискретизации
8 кГц обеспечивает в каждом сегменте 160 обрабатываемых отсчетов. После
сегментации отсчетов речевого сигнала в кодере последовательно выполняются
следующие три процедуры:
1)
кратковременный
(формантный) анализ с использованием процедуры линейного предсказания, в
результате чего получают первый остаточный сигнал;
2)
долговременный
анализ с использованием линейного предсказания для определения параметров
основного тона, в результате чего получают второй остаточный сигнал
3) аппроксимация второго остаточного сигнала с целью формирования сигнала возбуждения.
Восстановленный сигнал достаточно близок к исходному сигналу на входе кодера. Выполнив цифро-аналоговое преобразование и пропустив сигнал через ФНЧ, получают восстановленный аналоговый сигнал. Все процедуры обработки сигнала в кодере и декодере выполняются цифровыми методами. Показанные на рис. 6 модули липредера фактически являются блоками программного обеспечения.
4. Формантные вокодеры
В формантных вокодерах спектральная огибающая речевого сигнала аппроксимируется комбинацией нескольких простых резонансных кривых. Принципы построения форматного вокодера во многом аналогичны принципам естественного речеобразования и приёма речи. Поскольку речевой тракт представляет собой комплекс резонаторов, резонансные частоты и добротности которых изменяются в процессе речи в соответствии с сигналами, идущими из центральной нервной системы, то и в формантном вокодере происходит выделение из речевого сигнала управляющих сигналов (сигнал-параметров), которые на приёме воздействуют на резонансные контуры и воспроизводят требуемую огибающую спектра.
Структурная схема формантного вокодера:
Рисунок 7 – Структурная схема формантного вокодера
На передающей стороне в анализаторе вокодера выделяются структурные сигналы-параметры первых трех формант, а также интонационные параметры. В качестве оценки амплитуды форманты используется её усредненный уровень, выделяемый с помощью полосовых фильтров, выпрямителей и ФНЧ. Для выделения формантных частот применяются метод ро-метра, а также методы дискриминаторный и фильтрационный. Синтезатор формантного вокодера состоит из трех управляемых резонансных контуров (УК) с плавной перестройкой их частоты под приходящий параметр. На модуляторах происходит взаимодействие резонансного и колебательного процессов в зависимости от уровня соответствующего сигналапараметра. Считается, что с помощью формантного вокодера можно получать достаточно высококачественный синтез речи, как по разборчивости, так и по натуральности — даже при скорости цифрового потока порядка 1200 бит/с. При этом коэффициент компрессии формантного вокодера не менее чем вдвое выше, чем полосного.
Задачи
На вторую часть учебно-исследовательской работы поставлены задачи моделирования полосового вокодера в программной среде Matlab и исследование работы детектора основного тона, находящегося в составе модели.
Заключение
Так как моя учебно-исследовательская работа оказалась очень масштабной, в размещенном выше сообщении я указала основные виды вокодеров и описания их работы. По факту их теоретические исследования проведены намного основательнее. Для подтверждения сказанного прикрепляю файл с защищенной УИР.