Виды кодеков речевых сигналов
Схемы более эффективных классификаторов входного сигнала детальнее осуществляют классификацию фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (сответственно большую скорость), для менее ответственных - меньше бит (меньшую скорость). При таком построении кодеков могут быть достигнуты низкие средние скорости (2 - 4 Кбит/с) при высоком качестве синтезируемой речи.
Необходимо отметить, что для рассматриваемых приложений традиционная для вокодеров проблема снижения задержки при обработке сигнала в кодеке не является актуальной, так как величина суммарной задержки при передаче речи в системах IP-телефонии главным образом определяется задержками вносимыми каналами сети Интернет. Тем не менее, решения, позволяющие снизить задержку в вокодере, представляют практический интерес.
Проведенный в различных исследовательских группах анализ качества синтезированной речи при передачи речевых данных через сеть Интернет показывает, что основным источником возникновения искажений, снижения качества и разборчивости синтезированной речи является прерывание потока речевых данных, вызванное потерями при передачи по сети либо превышением предельно допустимого времени доставки пакета с речевыми данными. Гистограммы распределения числа последовательно потерянных пакетов, приведенные на рис. 4, показывают, что вероятность одиночных потерь выше вероятности потерь нескольких кадров подряд. Можно ожидать, что с развитием сети Интернет при дальнейшем увеличении ее пропускной способности, оптимизации маршрутизаторов и протоколов преобладающую роль будут играть потери одиночных пакетов. Следует заметить, что в случае прихода пакета данные, как правило, доставляются без ошибок. В таких условиях помехоустойчивое кодирование речевых данных нецелесообразно.
Таким образом, одной из важнейших задач при построении вокодеров для IP-телефонии является создание алгоритмов компрессии речи толерантных к потерям пакетов.
Для обслуживания широкой сети абонентов система IP телефонной
связи с использованием шлюзов должна включать абонентские линии связи с аналоговыми окончаниями. Это означает, что синтезированный в шлюзе аналоговый речевой сигнал по соединительной линии будет поступать на телефонный аппарат абонента. Точно также сигнал с выхода микрофона телефонного аппарата абонента по аналоговой линии будет поступать на вход вокодера, размещенного в шлюзе. Хорошо известно, что классические алгоритмы низкоскоростной компрессии речи чувствительны к амплитудно-частотным искажениям, возможным в соединительных линиях и акустических трактах. При создании алгоритмов низкоскоростных вокодеров это обстоятельство должно приниматься во внимание.
Каковы же перспективы создания вокодеров для IP-телефонии? Что имеется сегодня и ожидается в ближайшее время? Насколько можно судить по литературным данным специальных разработок для Интернет-телефонии, рекомендованных ITU-T (сектор стандартизации в области телекоммуникаций международного союза телекоммуникаций) пока не существует. Среди международных стандартов, рекомендуемых для подобных систем, чаще других упоминается G.723.1, обеспечивающий передачу речи со скоростью 5.3 и 6.3 Кбит/с, а так же G.729 для скорости передачи 8 Кбит/с.
Гарантируя достаточно высокое качество речи в идеальных условиях
передачи, упомянутые стандарты были разработаны для использования в каналах, отличных от Интернет и уже позже частично адаптировались для условий потерь пакетов. Развития этих стандартов включают в себя Voice Activity Detector и элементы, ответственные за синтез речевого сигнала на фрагментах, соответствующих потерянным речевым данным. В настоящее время ведущие в области телекоммуникаций фирмы и университеты проводят разработки алгоритмов вокодеров для Интернет-телефонии. Ориентируясь на рекламные публикации и собственные исследования, можно ожидать появления в ближайшие годы алгоритмов компрессии со средними скоростями 2 - 4 Кбит/с и ниже с качеством синтезированной речи, близким к коммерческому, при допустимых искажениях в условиях 20% потерь пакетов с речевыми данными.
В заключении этого раздела следует коротко отметить перспективные на наш взгляд пути построения низкоскоростных вокодеров с переменной скоростью. Во всех случаях здесь предпочтительными являются методы, использующие линейное предсказание. При этом, для скоростей более 3 Кбит/с целесообразно использование CELP-алгоритмов. Для более низких скоростей передачи данных алгоритмы будут, по-видимому, строится на базе тщательной классификации речевого сигнала с их последующим рациональным кодированием.
Появление маломощных сверхбыстродействующих интегральных микросхем (СБИС) привело к использованию алгоритмов кодирования в мобильных телефонных аппаратах и движению по пути к цифровому радиовещанию. Назначение большинства из этих алгоритмов — аналого-цифровое преобразование аналогового сигнала источника в цифровой сигнал с возможно меньшим количеством битов и его обработка, для передачи в форме цифровых данных и/или запоминания, или же синтеза и восстановления пораженного шумом и помехами ограниченного по полосе или искаженного сигнала. При этом сжатие (компрессия) цифровых данных может быть достигнута за счет устранения избыточности сигнала, преобразованного из аналоговой формы в цифровую.
Кодер речевого сигнала является первым элементом цифрового участка передающего тракта, следующим после АЦП (рис. 4.2).
Основной задачей кодера является предельно возможное сжатие сигнала речи, представленного в цифровой форме, то есть предельно возможное устранение избыточности речевого сигнала при сохранении приемлемого качества передаваемой речи.
Компромисс между степенью сжатия и сохранения качества обычно отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера.
В приемном устройстве (рис. 4.2) перед ЦАП размещен декодер (decoder) речевого сигнала. Задачей декодера является восстановление цифрового сигнала речи, с присущей ему естественной избыточностью, по принятому кодированному сигналу.
Сочетание кодера и декодера обычно называют кодеком (coder/decoder= codec).
Кодек речевого сигнала.
В стандарте GSM обработка речевого сигнала осуществляется в рамках принятой системы прерывистой передачи речи DTX (DiscontinuousTransmission), которая обеспечивает включение передатчика только тогда, когда пользователь начинает разговор и отключает его в паузах и в конце разговора.
Система DTX управляется детектором активности речи VAD (Voice Activity Detection), который обеспечивает обнаружение и выделение интервалов речи с шумоми шума без речи, даже в тех случаях, когда уровень шума соизмерим с уровнем речи.
В состав системы DTXвходит устройство формирования комфортного шума, которое включается и прослушивается в паузах речи (когда передатчик отключен).
Система прерывистой передачи речи также включает в себя устройство для экстраполяции фрагментов речи, потерянных из-за ошибок в канале.
Структурная схема процесса обработки речевого сигнала показана на рис. 4.3.
Основным устройством в данной схеме является кодек речи.
В соответствии со стандартом GSM каждый радиоканал используется для организации восьми цифровых каналов с TDMA. Значит, если это будут стандартные ИКМ-каналы, то потребуется скорость передачи 8x64 = 512 кбит/с. Такую скорость передачи пользовательской информации по одному радиоканалу обеспечить невозможно.
Выход из данной ситуации может быть найден, с одной стороны, в увеличении плотности передаваемой информации, а с другой — в применении более сложных способов кодирования речевых сигналов, требующих меньшего объема информации.
Снижение требуемой скорости цифрового потока каждого канала за счет использования более сложных способов кодирования должно осуществляться без значительного ухудшения качества. Наиболее низкая скорость передачи информации — (1. 3) кбит/с требуется при использовании вокодеров, однако, качество передачи речи в этом случае достаточно низкое, при декодировании получается «синтетический» речевой сигнал. Высокое качество передачи речи при незначительном снижении требований к скорости можно получить при использовании различных модификаций ИКМ, но более сложной аппаратной реализации.
Для того, чтобы иметь высокое качество передачи речи при более низких требованиях к скорости передачи информации, в GSM используется способ кодирования, объединяющий вокодеры и дифференциальную ИКМ, который получил название дифференциального кодирования.Вокодерное преобразование основано на использовании особенностей речевых органов человека.
Звуковые колебания, излучаемые голосовыми связками, формируются далее в «фильтрах», образуемых горлом, ртом и носом. Зная в каждый момент спектр частот и параметры таких «фильтров», можно восстановить исходный сигнал. Учитывая инерционность голосовых органов человека, можно считать, что за небольшой промежуток времени (порядка 10. 30 мс) они не изменяют своего состояния, то есть остаются постоянными частоты и параметры «фильтров».
Следовательно, если брать отрезки речевого сигнала по 20 мс, частоту основного тона и параметры фильтра речеобразующего тракта, то по ним легко можно восстановить исходный сигнал. Так, например, при кодировании с линейным предсказанием определяется и передается следующая информация:
- параметры модели речеобразующего тракта;
- характер возбуждения (гласный или звонкий согласный звуки в сопоставлении с глухими звуками);
- период основного тона;
- коэффициент усиления.
В фиксированные промежутки времени голосовые органы человека не остаются в фиксированном положении, их возбуждения носят более комплексный характер, чем передаваемые характер возбуждения и период основного тона. Это приводит к значительному ухудшению качества.
Дифференциальная ИКМ учитывает корреляцию дискретных отчетов АИМ сигнала. При этом кодируются не сами дискретные отсчеты, а разность амплитудпоступившего и предыдущего дискретных отсчетов. Поскольку диапазон изменения амплитуд разности дискретных отсчетов меньше диапазона изменения амплитуд самих дискретных отсчетов, для их кодирования требуется меньшее число разрядов.
Таким образом, дифференциальное кодирование подразумевает деление речевого сигнала на отрезки в 20мс с предыдущим их кодированием.
Кодек стандарта GSM
В стандарте GSMв системе кодирования речевых сигналов используется метод линейного предсказания с возбуждением регулярной последовательностью импульсов и долговременным предсказанием, то есть метод RPE-LTP.
Упрощенная блок-схема кодека в стандарте GSMпредставлена на рис. 4.4.
Кодер
■ в первой последовательности — импульсы 1, 4.. .37;
■ во второй — импульсы 2, 5, . 38;
■ в третьей — импульсы 3, 6, . 39.
В качестве сигнала возбуждения выбирается та из последовательностей, энергия которой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью битами в логарифмическом масштабе. Положение начального импульса 13-элементной последовательности кодируется двумя битами, то есть задается номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.
Таким образом, выходная информация кодера речевого сигнала для одного 20 мс сегмента речи включает:
- параметры фильтра-анализатора STP— 8коэффициентов логарифмического отношения площадей LARг, (/ = 1.. .8) — один набор на весь сегмент;
- параметры фильтра-анализатора LTP— коэффициент долговременного предсказания gи временную задержку dдля каждого из 4-х подсегментов;- параметры сигнала возбуждения — номер последовательности п, максимальная амплитуда В, нормированные амплитуды bt(1. 13) импульсов последовательности — для каждого из 4-х подсегментов.
Число бит, отводимых на кодирование передаваемых параметров, приведено в табл. 4.1.
Всего для одного 20-миллисекундного сегмента речи передается 260 бит информации, то есть кодер речи осуществляет сжатие информации почти в 5 раз (1280/260 = 4,92, где 1280 = 160x8 — число бит в методе линейного предсказания).
Декодер.
Рассмотрим принцип декодирования информации, поступающей по каналу связи в соответствии со схемой рис. 4.4.
1. Блок формирования сигнала возбуждения 1.Б, используя принятые параметры сигнала возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов сигнала речи, включая амплитуды импульсов и их расположение во времени, то есть сигнал — как остаток долговременного предсказания поступает на вход 2.Б — фильтра-синтезатора LTP.
2. Сформированный таким образом сигнал возбуждения фильтруется фильтром-синтезатором долговременного предсказания LTP, на выходе которого получается восстановленный остаток кратковременного предсказания <У . Следует отметить, что на второй вход фильтра LTP поступают сигналы, передающие параметры долговременного линейного предсказания, а именно коэффициент долговременного предсказания gи временная задержка d.
Оценка качества речевого кодирования.
Как следует из рассмотрения функционирования кодека GSM, создание экономичного и совершенного кодека речи является сложным процессом, связанным с непрерывными поисками новых технических решений.
При оценке качества кодирования кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи.
Для оценки разборчивости речи используется метод DRT(DiagnosticRhymeTest)— диагностический рифмованный текст. В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными (типа «дом» — «том», «кол» — «гол»), которые многократно произносятся несколькими дикторами, и по результатам испытаний оценивается доля искажений. Метод позволяет получить оценку разборчивости отдельных согласных и общую оценку разборчивости речи.
Для оценки качества звучания используется критерий DAM (DiagnosticAcceptabilityMeasure) — диагностическая мера приемлемости. Испытания заключаются в чтении несколькими дикторами (мужчинами и женщинами) ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи рядом экспертов, выставляющих свои оценки по пятибальной шкале. Результатом является средняя субъективная оценка или средняя оценка MOS (MeanOpinionScore).Хотя метод оценки качества звучания по критерию MOS является субъективным, его результаты достаточно объективны и используются на практике.
В качестве примера в табл. 4.2 приведены результаты оценки четырех типов кодеков по критерию MOS.
Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстрального расстояния CD (Cepstrum Distance).
Следует отметить, что при разработке стандарта GSMбыли исследованы шесть типов кодеков, после чего выбор был остановлен на кодеке RPE-LTP.
Работы по совершенствованию кодеков в стандарте GSMпродолжаются:
- введено полускоростное кодирование (6,5 кбит/с),
- предлагаются новые усовершенствования полноскоростного кодека [4.6, 4.7].
Кодеки VoIP-телефонии – это математические алгоритмы, которые выполняют кодирование и сжатие аналоговых аудиосигналов, преобразуя их в цифровые. Изначально этот термин сформировался из сочетания понятий кодер и декодер, но сегодня он в большей степени относится к таким понятиям как компрессия и декомпрессия.
Обзор кодеков VoIP-телефонии
Аудиокодеки VoIP
Чтобы передавать аналоговый аудиосигнал через IP-сеть, нужно преобразовать его в цифровой, то есть в последовательность нулей и единиц, которая в сжатом виде будет отправлена по сети. Именно эту функцию выполняют аудиокодеки.
На качество аудиосигналов напрямую влияют такие факторы как потеря и задержка пакетов, полоса пропускания канала передачи данных и собственно VoIP-кодеки, которые по-разному справляются с этими факторами. В большинстве своем они в большей или меньшей степени устойчивы к потере пакетов и их задержке, и обеспечивают разную степень сжатия информации. Поэтому чтобы достичь высокого качества связи, нужно правильно подобрать аудиокодек. Рассмотрим наиболее распространенные варианты, которые используются в современной IP-телефонии
G.711 – это базовый кодек телефонных сетей общего пользования, появившийся еще в 1972 году. Именно на его основе возникли все существующие сегодня кодеки.
- Скорость передачи данных: 64 Кб/сек.
- Лицензирование: не требуется.
- Стандарт: ITU-T.
- Особенности: стандарт использует два типа алгоритмов – μ-law (используется в цифровых системах связи США и Японии) и A-law (используется во всех других странах).
Для обработки данных этот аудиокодек использует импульсно-кодовую модуляцию и требует минимальных вычислительных мощностей для своей работы.
G.726 – один из первых аудиокодеков, который начал применять алгоритм компрессии. Он, как и G.711, использует дифференциальную импульсно-кодовую модуляцию. Кодек был создан как альтернатива устаревшему G.721 и во многом схож с G.711, но использует только половину полосы пропускания.
- Скорость передачи данных: от 16 до 40 Кб/сек.
- Лицензирование: не требуется.
- Стандарт: ITU-T.
С 1990 года G.726 практически перестал использоваться, поскольку он не подходил для работы факсимильными сигналами. Однако сегодня он может снова стать востребованным, в первую очередь за счет того, что экономит ресурс центрального процессора, а это важный момент для современной телефонии.
G.729А
Этот кодек использует очень небольшую полосу пропускания, но при этом обеспечивает высокое качество передачи сигнала. Это стало возможно благодаря применению сопряженной структуры с управляемым алгебраическим кодом и линейным предсказанием, из-за чего кодек требует использования мощного центрального процессора.
- скорость передачи данных: 8 Кб/ сек;
- лицензирование: необходима лицензия;
Кодек используется многими телефонами и современными системами связи.
Этот кодек был разработан для глобального стандарта мобильной цифровой связи GSM. При кодировании пакетов он использует информацию предыдущего пакта, а кодирование происходит блоками по 20 мс со скоростью 13 кбит/с.
- Скорость передачи данных: 13 Кб/сек.
- Лицензирование: не требуется.
- Стандарт: GSM.
Он создает относительно небольшую нагрузку на процессор, при этом обеспечивая достаточно высокое качество передачи аудиоданных, но оно все же уступает в этом G.729A.
Аудиокодек iLBC совмещает в себе высокое качество передачи аудиоданных с незначительной нагрузкой на полосу пропускания. Для сжатия данных здесь применяются сложные алгоритмы, которые создают ощутимую нагрузку на центральный процессор. Но эти алгоритмы позволяют кодеку поддерживать высокое качество связи, несмотря на искажения, возникающие при задержке или потери пакетов.
- Скорость передачи данных: 13.3 Кб/ сек. (30 мс фрейма) и 15.2 Кб/ сек. (20 мс фрейма).
- Лицензирование: не требуется (за исключением использования в коммерческих целях);
- Платные ограничения: нет.
iLBC оптимально подходит для сетей с потерями пакетов, где важно поддерживать качество связи на высоком уровне. Он используется такими сервисами как Google Talk, Skype, Yahoo! и Messenger. Однако он не так распространен, как аудиокодеки стандартов ITU, из-за чего могут возникнуть проблемы с его совместимостью с распространенными IP-АТС.
Speex
Этот аудиокодек имеет настраиваемую степень сжатия и переменную скорость, которая адаптируется под текущую производительность сети. Speex доступен в широко- и узкополосных модификациях, исходя из требований к качеству связи.
- Скорость передачи данных: от 2.15 до 22.4 Кб/сек.
- Лицензирование: не требуется.
- Платные ограничения: нет.
Speex подходит для передачи голоса по сети с ненадежной передачей пакетов данных. Кодек разработан для применения в системах «голос-через-интернет» (VoIP).
Широкополосный аудиокодек G.722 появился в 1988 году и в своей базовой версии является устаревшим. Несмотря на это, G.722 обеспечивает качество передачи аудиосигнала сравнимое с G.711, что позволяет ему оставаться востребованным в современной телефонии.
- Скорость передачи данных: 64 Кб/сек.
- Лицензирование: не требуется.
- Платные ограничения: нет.
- Стандарт: ITU-T.
Последняя версия G.722.2 вышла в 2002 году и используется достаточно часто. Это адаптивный, широкополосный кодек с переменной скоростью, способный быстро менять скорость сжатия при изменении пропускной способности сети. В этой версии кодека есть 9 режимов скорости передачи данных, и он используется российскими мобильными операторами под названием технологии HD Voice.
В конце стоит отметить, что наиболее популярные IP-АТС работают со всеми перечисленными аудиокодеками, и позволяют пользователям самостоятельно выбирать оптимальный для них вариант.
Передача речи является основным, обязательным режимом работы систем мобильной связи. Звук с помощью акусто-электронного преобразователя (микрофона) превращается в аналоговый электрический сигнал. Поскольку в цифровых системах связи канальному кодированию подвергается последовательность бит, аналоговый речевой сигнал должен быть представлен в цифровой форме. При этом для эффективного использования канала требуется устранить его избыточность до величины, позволяющей на приемной стороне восстановить по нему звук с сохранением индивидуальных особенностей голоса (натуральность).
За длительный период развития телефонной связи были достаточно подробно изучены характеристики речи и устройство речевого аппарата человека. Так, установлено, что для обеспечения приемлемого качества восстановленной речи достаточно анализировать (передавать) речевой сигнал в полосе частот 300. 3400 Гц. Выяснены и причины большой избыточности речевого сигнала. К ним относятся:
• неравномерное распределение значений (отсчетов) сигнала (редки большие отсчеты);
• высокая корреляция соседних отсчетов;
• корреляция удаленных отсчетов, обусловленная периодичностью
• корреляция между периодами основного тона (см. далее);
• избыточность из-за пауз между слогами, словами, фразами при монологе, которые составляют (в среднем) до 25% времени разговора, и пауз, когда надо слушать собеседника (до 50% времени).
Задача устранения этой избыточности возлагается на речевые кодеки - устройства, осуществляющие кодирование речевого сигнала и его декодирование (восстановление). Основная проблема при разработке кодеков состоит в получении высокой степени сжатия без чрезмерного снижения качества восстановленной речи. Таким образом, основными характеристиками кодеков являются скорость преобразования
где k - число бит на выходе кодера на интервале времени t, и качество восстановленной речи.
Скорость преобразования R t является важной характеристикой речевых кодеков, так как определяет требуемую пропускную способность канала для передачи речи. Сжатие сигнала тем больше и, следовательно, кодек тем эффективнее, чем меньше R t (при обеспечении требуемого качества восстановленной речи).
5.2. КОДЕРЫ ФОРМЫ РЕЧЕВОГО СИГНАЛА
Кодеры формы позволяют сохранить основную форму непрерывного сигнала. Они не являются специфичными для речи и могут применяться для сжатия любого непрерывного сигнала. Непрерывный сигнал источника кодируется в два этапа. Сначала с помощью аналого-цифрового преобразования (АЦП) формируются последовательности, дискретные по уровню и времени, т.е. производится так называемое натуральное кодирование. Затем используются собственно методы сжатия дискретных последовательностей.
Преобразование непрерывного сигнала в цифровую форму в литературе часто именуется импульсно-кодовой модуляцией (ИКМ), хотя в реальности ни
о какой модуляции несущей речь не идет.
В соответствии с теоремой Котельникова аналоговый сигнал x(t) заменяется своими непрерывными отсчетами x Н = ( n t ) , взятыми через
где F Д - частота
превышающая верхнюю частоту F B спектра x(t) . Поскольку
приемной стороне, в обозначениях его можно опустить.
Далее диапазон изменения х н (п) разбивается на 2 k дискретных уровней
x , называемые шагом квантования.
удовлетворяющий условию s(n) x ≤ х н (п)<[s(n)
принадлежащее отрезку [ − 2 k − 1 , + 2 k − 1 ], заменяется значением s(n)
возникает погрешность, максимальное значение которой
Последовательность таких погрешностей называется шумом квантования.
последовательность чисел s(1), s(2). s(n-1), s(n), s(n + 1). . Каждое s(i)
представляется в двоичной системе счисления, для чего требуется k бит. Первый бит определяет знак отсчета, остальные - его значение (младшие разряды справа).
По каналу за время t передаются k бит. На приемной стороне аналоговый сигнал восстанавливается с помощью цифро-аналогового преобразователя (ЦАП) и интерполятора (фильтра нижних частот), например, по формуле
sin 2 π F ( t − i t )
Из-за шумов квантования и погрешностей интерполяции x ( t ) ≠ x ( t ) . Для речевых сигналов числа s(i) являются зависимыми случайными величинами. Для сжатия таких последовательностей широко используется кодирование с предсказанием.
Если известен (даже не очень точно) вид зависимости отсчетов друг от друга, то оценку текущего отсчета s(n) можно вычислить (предсказать) по т предыдущим отсчетам s ( n − m ), s ( n − m + 1). s ( n − 1) . При этом в канал разумно
посыпать только ошибку предсказания e ( n ) = s ( n ) − s ( n ) . На приемной стороне с помощью такого же предсказателя вычисляется прогноз s ′ ( n ) и восстанавливается сначала текущий цифровой отсчет s ′ ( n ) = s ′ ( n ) + e ( n ) , а затем (с помощью ЦАП) и аналоговый x ( t ) .Сжатие данных здесь достигается за счет того, что диапазон изменения e(п) существенно меньше, чем диапазон изменения s(n). Поэтому при той же точности представления требуется меньшее, чем при ИКМ, число двоичных разрядов. Основной проблемой является разработка достаточно просто реализуемых предсказателей, обеспечивающих минимальную среднеквадратическую ошибку е(п).
На практике используется линейное предсказание, при котором
s ( n ) = ∑ a i s ( n − i ) ,
где a i - коэффициенты предсказания; т - порядок предсказания, обычно
Такое экономное кодирование называется дифференциальной ИКМ (ДИКМ). Так как зависимости между отсчетами s(i) на отдельных временных интервалах могут меняться, для уменьшения е(n) необходимо подстраивать коэффициенты предсказания аi . Эти изменения должны передаваться на приемную сторону. В этом случае дифференциальную ИКМ называют
Другой, полярный по отношению к ИКМ, метод кодирования называется дельта-модуляцией (ДМ). Частота дискретизации Р д выбирается в десятки раз больше верхней частоты F B спектра x(f). Ошибка предсказания е(п) представляется 1 битом, указывающим только знак ошибки - s ( n ) x больше или меньше х н (п) . Предсказанное значение получается из предыдущего добавлением или вычитанием фиксированного значения Д (отсюда и название метода кодирования). В зависимости от скорости изменения x(t) величину можно оперативно изменять, что соответствует адаптивной ДМ (АДМ). Говорят, что если при ИКМ сигнал x(t) квантуется грубо по времени и точно по уровню, то при ДМ - точно по времени и грубо по уровню.
Экспериментально установлено, что качество речи, восстановленной после ИКМ, остается высоким, если частота дискретизации Fд=8 кГц, а каждый отсчет s(n) представлен k=8 битами. ИКМ с такими параметрами лежит в основе так называемой первичной ИКМ и формирует согласно (9.1) поток бит со скоростью R t = 64 кбит/с. Однако корреляция соседних отсчетов при этом превышает 0,85, что говорит о высокой избыточности полученной последовательности. Использование ДИКМ, АДИКМ позволяет снизить скорость преобразования примерно в 2 раза с сохранением высокого качества восстановленной речи.
5.3. ВОКОДЕРЫ
В вокодерах (от английского voice coder) измеряются параметры речевого аппарата человека, по которым на приемной стороне создается аналог такого же аппарата и синтезируется звук. При этом постулируется, что
в течение 20. 30 мс эти параметры остаются постоянными. Поэтому перед сжатием поток бит ИКМ нарезается на сегменты, содержащие по 160-240 отсчетов для оценки постоянных параметров.
Разработка вокодеров основана на использовании различных моделей голосового тракта. На рис. 5.1 показана однотрубная модель речеобразующего аппарата человека.
Модель представляет собой М последовательно соединенных секций одинаковой длины, имеющих постоянную (в пределах секции) площадь сечения. Если вдувать воздух в такой свисток (подавать сигнал возбуждения), то в зависимости от конфигурации соединения и сигнала возбуждения на выходе формируется тот или иной звук. Таким образом, звук, получаемый с помощью данной модели, можно задать параметрами сигнала возбуждения и
М значениями площадей секций свистка.
Рис. 5.1. Модель голосового тракта
Важной характеристикой сигнала возбуждения является частота основного тона F 0 . Поток воздуха из легких человека прерывается голосовыми связками, и возникает последовательность импульсов с частотой следования от 80 до 1200 Гц. Значения периода основного тона T 0 = 1/F 0 коррелированы в
соседних сегментах речи. От точности описания основного тона зависит и степень сжатия, и качество синтезированной речи.
С помощью вокодеров получены большие коэффициенты сжатия, но синтезированная речь при этом характеризуется низким качеством из-за механической монотонности, отсутствия индивидуальной окраски.
Значительные успехи в сжатии речевых сигналов при приемлемом качестве достигнуты в результате совместного использования методов линейного предсказания и техники вокодеров. Выяснено, что площади секций модели на рис. 5.1 связаны нелинейными функциональными соотношениями с коэффициентами а линейного предсказания (5.2). Схема речевого кодека в общем виде показана на рис. 5.2, где анализирующий и синтезирующий фильтры строятся на основе (5.2).
Алгоритмы сжатия, описываемые данной схемой, могут отличаться способом формирования сигнала возбуждения. Известны следующие разновидности сигнала возбуждения: возбуждение от основного тона, от ошибки предсказания е(п), многоимпульсное возбуждение и возбуждение от кода.
Самым простым является возбуждение от основного тона. В каждом периоде основного тона формируется один импульс для вокализованного сегмента (содержащего сигнал звука) и шумоподобный сигнал для невокализованного сегмента. На приемную сторону, следовательно, должен передаваться признак вокализованности анализируемого сегмента.
Рис. 5.2. Схема метода линейного предсказания
Возбуждение от ошибки предсказания приводит к металлическому оттенку синтезированной речи.
Для формирования сигнала возбуждения, обеспечивающего минимальную среднеквадратическую ошибку е(п), используется метод анализа через синтез, схема которого показана на рис. 5.3.
В кодер введен синтезатор речевого сигнала (декодер) точно такой же, как и на приемной стороне. С его помощью подбираются и передаются параметры оптимального сигнала возбуждения. В приемнике по этим
параметрам восстанавливается речевой сигнал этим же синтезатором, что и обеспечивает минимальную ошибку, равную ошибке, допущенной при кодировании.
Рис. 5.3. Схема метода анализа через синтез
Так, в кодеке стандарта GSM в каждой четверти сегмента, содержащей по 40 отсчетов, формируются 3 регулярные последовательности из 13 импульсов разной амплитуды, отличающиеся сдвигом относительно начала подсегмента. В качестве сигнала возбуждения выбирается последовательность с наибольшей энергией. Параметры этой последовательности: амплитуды импульсов, номер выбранной последовательности кодируются и передаются на приемную сторону, где по ним синтезируется сигнал возбуждения для фильтра (5.2). Эти операции отображены в названии кодера - кодер с регулярным возбуждением, долговременным предсказанием и линейным предсказанием (RPE/LTP-LPC - regular pulse excitation/long term prediction - linear predictive code). Долговременное предсказание предназначено для устранения избыточности за счет корреляции периодов основного тона (фильтр с большой постоянной времени), а линейное предсказание - для учета корреляции соседних отсчетов (фильтр с малой постоянной времени). Скорость преобразования - 13 кбит/с, коэффициент сжатия относительно первичной ИКМ - примерно 5.
Структурная схема кодера речевого сигнала стандарта GSM реализующая алгоритмы краткосрочного и долговременного предсказаний и преобразований, показана на рис. 5.4. Она содержит четыре секции – предварительной обработки, краткосрочного предсказания (STP), долговременного предсказания (LTP), и импульсного возбуждения (RPE). Информационные биты, полученные в результате преобразований и передаваемые далее в тракт, следующие: коэффициенты LAR (36 битов на каждые 20 мс), RPE параметры (47 битов на каждые 5 мс), и параметры LTP – 9 битов на каждые 5 мс.
Рис. 5.4. Структурная схема кодера речевого сигнала стандарта GSM
Наиболее эффективным методом сжатия речевого сигнала до скоростей
4-16 кбит/с считается алгоритм CELP (code excited linear prediction) -
линейное предсказание и многоимпульсное возбуждение от кода (стандарты TETRA и IS-95). Сигнал возбуждения берется из заранее созданной кодовой книги, которая содержит от 2 10 до 2 16 векторов. Содержимое кодовой книги определяется в результате анализа достаточно длинных реальных речевых сигналов (детерминированная книга). В стохастическую (алгебраическую) книгу записываются коды отсчетов нормального белого шума с нулевым средним и единичной дисперсией.
Поиск оптимального вектора возбуждения требует проведения достаточно объемных вычислений. За 5-8 мс для каждого вектора надо определить ошибки предсказания, вычислить взвешенную среднеквадратическую ошибку и в качестве оптимального выбрать вектор, обеспечивающий минимальную ошибку. Номер (индекс) такого вектора передается по каналу. Для уменьшения числа операций вводятся дополнительные упрощенные книги. В приемнике имеется точная копия кодовой книги, из которой по принятому индексу извлекается оптимальный вектор возбуждения и посылается в синтезатор, идентичный используемому в кодере. На рис. 5.4 приведена структурная схема декодера CELP стандарта TETRA, а в табл. 5.1 показано поразрядное распределение передаваемой информации при обработке 4 блоков сегмента в 30 мс.
Синтезирующий фильтр Ф1 реализует долговременное предсказание, а фильтр Ф2 - линейное (5.2). Из табл. 5.1 видно, что параметры оптимального
сигнала возбуждения вычисляются в каждой четверти сегмента. Скорость преобразования 4,6 кбит/с, коэффициент сжатия - примерно 14.
Наличие пауз в процессе телефонного разговора позволяет организовать
прерывистую передачу речи (DTX - discontinuous transmission), при которой передатчик МС включается только в периоды существования звука (в так называемые периоды активности абонента). Как уже отмечалось, такие периоды составляют в среднем около 25% времени сеанса связи. В паузах выделенный для трафика физический канал может быть передан другим абонентам или использован для передачи неречевых данных. В системах CDMA выключение МС не только экономит емкость ее аккумуляторов, но и снижает уровень внутрисистемных помех в обратном канале, что эквивалентно увеличению абонентской емкости системы.
Рис. 5.4. Декодер по методу возбуждения от кода
Чтобы на приемной стороне во время выключения передатчика не возникали интервалы абсолютной тишины, и принимающий абонент не беспокоился об исправности телефонного тракта, генерируется так называемый комфортный шум. Создаваемый шум должен быть похож на натуральный фон передающей стороны (шум автомобиля, улицы). Для этого МС во время пауз периодически транслирует параметры естественного шума, которые учитываются при генерации комфортного шума.
Таблица 5.1. Распределение передаваемой информации
Коэффициенты а i
Для организации прерывистой передачи речи требуется определять интервалы времени, в которых звук отсутствует. Эту задачу решают детекторы активности речи. В системе GSM работа детектора активности основана на различии спектральных характеристик речи и шума (предполагается, что спектр шума равномернее, чем спектр речи), а также на периодичности звука и непериодичности шума. Сигнал с выхода линейного предсказателя кодера фильтруется и сравнивается с адаптивным порогом, величина которого устанавливается в интервалы действия только шума. При превышении порога принимается решение о наличии речи, в противном случае фиксируется ее отсутствие и передатчик МС выключается. Для уменьшения вероятности ложного выключения, что приведет к разрывам речи, решение об отсутствии звука выносится после накопления данных в течение 60. 100 мс.
6. МОДУЛЯЦИЯСИГНАЛОВВЦИФРОВЫХСИСТЕМАХМОБИЛЬНОЙ СВЯЗИ
6.1. КРИТЕРИИ ВЫБОРА МОДУЛЯЦИОННЫХ ФОРМАТОВ ПРИ ЦИФРОВОЙ ПЕРЕДАЧЕ ДАННЫХ
s(t)= ∑ S 0 ( t − i )cos(2 π f 0 + ϕ i )
где S 0 (t) - огибающая посылки; ϕ i начальная фаза i- й посылки.
В простейшем случае бинарной фазовой манипуляции - БФМ (в англоязычной литературе BPSK - binary phase shift keying) - посылки полагаются прямоугольными и примыкающими друг к другу, т.е. имеющими длительность , а фазы ϕ i , принимают лишь 2 возможных значения: 0 или π. Таким образом,
каждая посылка передает один двоичный символ и при фиксированной
и мощности сигнала БФМ реализует наиболее
помехоустойчивый способ двоичной телеграфии, так как импульсы с фазами 0 и π являются противоположными, т.е. максимально удаленными. В отношении же расходования частотного ресурса описанная версия БФМ оказывается чрезвычайно неэффективной. Дело в том, что спектр мощности сигнала (4.1) совпадает по форме с энергетическим спектром посылки S 0 ( t ), и когда последняя прямоугольна, убывает с частотой f весьма медленно - пропорционально 1/f 2 . Если, как это часто делается в технике связи при регламентации использования радиоспектра, измерять полосу сигнала шириной окна f 99 , в котором удерживается не менее 99% излучаемой мощности, для БФМ
многократно превосходящая традиционный ориентир 1/
этой причине БФМ с прямоугольными посылками
применяется в цифровой мобильной телефонии.
Для повышения спектральной эффективности можно наметить несколько путей. Простейший из них состоит в увеличении длительности прямоугольной
с сохранением прежней
единицу времени. При БФМ один бит
передается за время
1/Т Ь . Для удержания этой скорости при "удлинении" посылки следует увеличить число возможных значений фазы ϕ i . Так, при удвоении длительности посылки
перепутывания, составит 2 Е b (рис. 6.1, а).
заметного ухудшения помехоустойчивости приема при переходе от БФМ к КФМ.
Не составляет труда убедиться, что при дальнейшем увеличении длительности посылки требование поддержания постоянства скорости приведет к сближению соседних векторов.
по сравнению с БФМ будет нивелироваться уменьшением угла между соседними сигналами до 45° (рис. 6.1, в), т.е. уменьшением минимального
евклидова расстояния до 3 E b (2 − 2 2) . Таким образом, в данном случае
трехкратный выигрыш в полосе приобретается ценой энергетических потерь порядка 3,5 дБ (именно таким должно быть увеличение энергии, компенсирующее сближение векторов и снижающее вероятность ошибки до прежнего уровня). Дальнейшее повышение спектральной эффективности подобным способом окажется тем более невыгодным в плане энергозатрат: M- кратный выигрыш в полосе при 2 M -ричной ФМ будет сопровождаться
Читайте также: