Какой может быть глубина звука моно аудио файла
Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.
Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек".
Частота дискретизации. Для записи аналогового звука и его преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т.е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую аналогового сигнала.
Частота дискретизации звука - это количество измерений громкости звука за одну секунду, измеряется в герцах (Гц). Обозначим частоту дискретизации буквой f.
Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду. Для кодировки выбирают одну из трех частот: 44,1 КГц, 22,05 КГц, 11,025 КГц.
Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации b , которое называется глубиной кодирования звука
Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.
Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 b . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:
В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.
Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно"). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").
Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.
1. Рассчитайте объём монофонического аудиофайла длительностью 10 с при 16-битном кодировании и частоте дискретизации 44,1 к Гц. (861 Кбайт)
2. Производится двухканальная (стерео) звукозапись с частотой дискретизации 48 кГц и 24-битным разрешением. Запись длится 1 минуту, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?
3. Производится одноканальная (моно) звукозапись с частотой дискретизации 11 кГц и глубиной кодирования 24 бита. Запись длится 7 минут, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?
4. Производится двухканальная (стерео) звукозапись с частотой дискретизации 11 кГц и глубиной кодирования 16 бит. Запись длится 6 минут, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?
5. При 16-битном кодировании, частоте дискретизации 32 кГц и объёме моноаудиофайла 700 Кбайт время звучания равно:
6. Одна минута записи цифрового аудиофайла занимает на диске 1,3 Мб, разрядность звуковой платы - 8. С какой частотой дискретизации записан звук?
7. Аналоговый звуковой сигнал был дискретизирован сначала с использованием 256 уровней интенсивности сигнала (качество звучания радиотрансляции), а затем 65 536 уровней (качество звучания аудио- CD ). Во сколько раз различаются информационные объёмы оцифрованного звука?
В цифровом аудио с использованием импульсно-кодовой модуляции (ИКМ) битовая глубина - это количество бит информации в каждой выборке , и она напрямую соответствует разрешающей способности каждой выборки. Примеры битовой глубины включают компакт-диск Digital Audio , который использует 16 бит на сэмпл, и DVD-Audio и Blu-ray Disc, которые могут поддерживать до 24 бит на сэмпл.
В базовых реализациях изменения битовой глубины в первую очередь влияют на уровень шума из-за ошибки квантования, то есть на отношение сигнал / шум (SNR) и динамический диапазон . Однако такие методы, как дизеринг , формирование шума и передискретизация, смягчают эти эффекты без изменения битовой глубины. Битовая глубина также влияет на скорость передачи данных и размер файла.
Битовая глубина имеет значение только в отношении цифрового сигнала PCM . Не-PCM форматы, такие как форматы сжатия с потерями , не имеют связанной битовой глубины.
СОДЕРЖАНИЕ
Двоичное представление
Сигнал ИКМ - это последовательность цифровых аудиосэмплов, содержащих данные, обеспечивающие необходимую информацию для восстановления исходного аналогового сигнала . Каждый отсчет представляет собой амплитуду сигнала в определенный момент времени, и отсчеты равномерно распределены во времени. Амплитуда - это единственная информация, которая явно хранится в выборке, и она обычно хранится как целое число или число с плавающей запятой , закодированное как двоичное число с фиксированным количеством цифр: битовая глубина выборки , также называемая длиной слова. или размер слова.
Разрешение указывает количество дискретных значений, которые могут быть представлены в диапазоне аналоговых значений. Разрешение двоичных целых чисел экспоненциально увеличивается с увеличением длины слова. Добавление одного бита увеличивает разрешение вдвое, добавление в два раза увеличивает его и так далее. Число возможных значений, которые могут быть представлены целочисленной битовой глубиной, можно вычислить, используя 2 n , где n - битовая глубина. Таким образом, 16-битная система имеет разрешение 65 536 (2 16 ) возможных значений.
Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.
Многие аудио форматы файлов и цифровых аудио рабочих станций (галки) теперь поддерживает форматы PCM с образцами представлены числами с плавающей точкой. И формат файла WAV , и формат файла AIFF поддерживают представления с плавающей запятой. В отличие от целых чисел, битовая комбинация которых представляет собой одну серию битов, число с плавающей запятой вместо этого состоит из отдельных полей, математическая связь которых образует число. Наиболее распространенным стандартом является IEEE 754, который состоит из трех полей: знаковый бит, который представляет, является ли число положительным или отрицательным, показатель степени и мантисса, которая увеличивается на показатель степени. Мантисса выражается как двоичная дробь в форматах с плавающей запятой IEEE base-two.
Квантование
Битовая глубина ограничивает отношение сигнал / шум (SNR) восстановленного сигнала до максимального уровня, определяемого ошибкой квантования . Битовая глубина не влияет на частотную характеристику , которая ограничена частотой дискретизации .
Ошибка квантования, возникающая при аналого-цифровом преобразовании (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным цифровым значением. Шум нелинейный и зависит от сигнала.
В идеальном АЦП, где ошибка квантования равномерно распределена между младшим значащим битом (LSB) и где сигнал имеет равномерное распределение, охватывающее все уровни квантования, отношение сигнал / шум квантования (SQNR) может быть вычислено из ± 1 2 >>>
где Q - количество битов квантования, а результат измеряется в децибелах (дБ).
Следовательно, 16-битный цифровой звук на компакт-дисках имеет теоретический максимум SNR 96 дБ, а профессиональный 24-битный цифровой звук достигает 144 дБ. По состоянию на 2011 год технология цифрового аудиопреобразователя ограничена отношением сигнал / шум около 123 дБ ( фактически 21 бит) из-за реальных ограничений в конструкции интегральных схем . Тем не менее, это примерно соответствует характеристикам слуховой системы человека . Несколько преобразователей можно использовать для охвата разных диапазонов одного и того же сигнала, комбинируя вместе для записи более широкого динамического диапазона в долгосрочной перспективе, но при этом ограничиваясь динамическим диапазоном одного преобразователя в краткосрочной перспективе, что называется расширением динамического диапазона. .
Плавающая запятая
Разрешение выборок с плавающей запятой менее прямолинейно, чем целочисленных выборок, потому что значения с плавающей запятой не распределены равномерно. В представлении с плавающей запятой пространство между любыми двумя соседними значениями пропорционально значению. Это значительно увеличивает SNR по сравнению с целочисленной системой, потому что точность сигнала высокого уровня будет такой же, как точность идентичного сигнала на более низком уровне.
Компромисс между числами с плавающей запятой и целыми числами заключается в том, что пространство между большими значениями с плавающей запятой больше, чем пространство между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей запятой приводит к большей ошибке, чем округление небольшого числа с плавающей запятой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют равномерное округление, всегда округляя младший бит до 0 или 1, а с плавающей запятой имеет однородное отношение сигнал / шум, уровень шума квантования всегда пропорционален уровню сигнала. Минимальный уровень шума с плавающей запятой будет расти по мере увеличения сигнала и падать по мере его падения, что приводит к слышимой дисперсии, если битовая глубина достаточно мала.
Обработка звука
Большинство операций обработки цифрового звука включают повторное квантование выборок и, таким образом, вносят дополнительную ошибку округления, аналогичную исходной ошибке квантования, возникающей во время аналого-цифрового преобразования. Чтобы предотвратить ошибку округления, превышающую неявную ошибку АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные отсчеты.
Операции цифровой обработки сигналов (DSP) могут выполняться с точностью до фиксированной или плавающей точки. В любом случае точность каждой операции определяется точностью аппаратных операций, используемых для выполнения каждого шага обработки, а не разрешением входных данных. Например, на процессорах x86 операции с плавающей запятой выполняются с одинарной или двойной точностью, а операции с фиксированной запятой - с 16-, 32- или 64-битным разрешением. Следовательно, вся обработка, выполняемая на оборудовании на базе Intel, будет выполняться с этими ограничениями независимо от исходного формата.
Цифровые сигнальные процессоры с фиксированной точкой часто поддерживают определенную длину слова для поддержки определенных разрешений сигнала. Например, микросхема Motorola 56000 DSP использует 24-битные умножители и 56-битные накопители для выполнения операций умножения-накопления на двух 24-битных выборках без переполнения или усечения. На устройствах, которые не поддерживают большие накопители, результаты с фиксированной точкой могут быть усечены, что снижает точность. Ошибки возникают на нескольких этапах DSP со скоростью, которая зависит от выполняемых операций. Для некоррелированных шагов обработки аудиоданных без смещения постоянного тока ошибки считаются случайными с нулевым средним. При этом предположении стандартное отклонение распределения представляет собой сигнал ошибки, а ошибка квантования масштабируется как квадратный корень из числа операций. Высокие уровни точности необходимы для алгоритмов, включающих повторяющуюся обработку, например свертку . Высокие уровни точности также необходимы в рекурсивных алгоритмах, таких как фильтры с бесконечной импульсной характеристикой (БИХ). В частном случае БИХ-фильтров ошибка округления может ухудшить частотную характеристику и вызвать нестабильность.
Дизеринг
Запас по уровню и минимальный уровень шума на этапах аудиопроцесса для сравнения с уровнем дизерингаШум, вносимый ошибкой квантования, включая ошибки округления и потерю точности, вносимую во время обработки звука, может быть уменьшен путем добавления небольшого количества случайного шума, называемого дизерингом , к сигналу перед квантованием. Дизеринг устраняет нелинейные ошибки квантования, давая очень низкие искажения, но за счет слегка повышенного минимального уровня шума . Рекомендуемый дизеринг для 16-битного цифрового звука, измеренный с использованием взвешивания шума ITU-R 468 , примерно на 66 дБ ниже уровня выравнивания или на 84 дБ ниже полной шкалы цифрового звука , что сравнимо с уровнем шума микрофона и комнаты и, следовательно, имеет незначительные последствия в 16-битном режиме. бит аудио.
24-битный звук не требует дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, но, судя по таблицам данных производителя, не существует АЦП, который может обеспечить более
Дизеринг также можно использовать для увеличения эффективного динамического диапазона. Воспринимается динамический диапазон 16-битного звука может составлять 120 дБ или больше с шумом формы псевдослучайного сигнала, воспользовавшись частотной характеристики человеческого уха.
Динамический диапазон и запас по высоте
Динамический диапазон - это разница между самым большим и самым маленьким сигналом, который система может записать или воспроизвести. Без дизеринга динамический диапазон коррелирует с минимальным уровнем шума квантования. Например, 16-битное целочисленное разрешение обеспечивает динамический диапазон около 96 дБ. При правильном применении дизеринга цифровые системы могут воспроизводить сигналы с уровнями ниже, чем их разрешение обычно позволяет, расширяя эффективный динамический диапазон за пределы, налагаемые разрешением. Использование таких методов, как передискретизация и формирование шума, может дополнительно расширить динамический диапазон дискретизированного звука, перемещая ошибку квантования за пределы интересующей полосы частот.
Если максимальный уровень сигнала ниже, чем разрешено битовой глубиной, запись имеет запас по пространству . Использование более высокой битовой глубины во время студийной записи может сделать доступным запас по пространству при сохранении того же динамического диапазона. Это снижает риск клиппирования без увеличения ошибок квантования при низкой громкости.
Передискретизация
Передискретизация - это альтернативный метод увеличения динамического диапазона звука PCM без изменения количества бит на выборку. При передискретизации аудиосэмплы собираются с кратностью желаемой частоты дискретизации. Поскольку предполагается, что ошибка квантования равномерно распределена по частоте, большая часть ошибки квантования смещается в сторону ультразвуковых частот и может быть удалена с помощью цифроаналогового преобразователя во время воспроизведения.
Для увеличения разрешения, эквивалентного n дополнительных битов, сигнал должен быть передискретизирован на
п ты м б е р о ж s а м п л е s знак равно ( 2 п ) 2 знак равно 2 2 п . = (2 ^ ) ^ = 2 ^ .>
Например, 14-битный АЦП может воспроизводить 16-битный звук 48 кГц при работе с 16-кратной передискретизацией или 768 кГц. Поэтому передискретизированный PCM обменивает меньшее количество бит на выборку на большее количество выборок, чтобы получить такое же разрешение.
Динамический диапазон также может быть расширен за счет передискретизации при восстановлении сигнала без передискретизации в источнике. Рассмотрим 16-кратную передискретизацию при реконструкции. Каждая выборка при реконструкции будет уникальной в том смысле, что для каждой из исходных точек выборки будет вставлено шестнадцать, все они были рассчитаны с помощью фильтра цифровой реконструкции . Механизм увеличения эффективной битовой глубины описан ранее, то есть мощность шума квантования не была уменьшена, но спектр шума был расширен на 16-кратную ширину полосы звукового сигнала.
Историческая справка. Стандарт компакт-дисков был разработан в результате сотрудничества Sony и Philips. Первый потребительский блок Sony был оснащен 16-битным ЦАП; первые Philips представили двойные 14-битные ЦАП. Это вызвало путаницу на рынке и даже в профессиональных кругах, потому что 14-битный PCM допускает SNR 84 дБ, что на 12 дБ меньше, чем 16-битный PCM. Philips реализовал 4-кратную передискретизацию с формированием шума первого порядка, что теоретически реализовало полный динамический диапазон 96 дБ формата CD. На практике Philips CD100 имел отношение сигнал / шум 90 дБ в звуковом диапазоне 20 Гц - 20 кГц, как и Sony CDP-101.
Формирование шума
Передискретизация сигнала приводит к одинаковому шуму квантования на единицу ширины полосы на всех частотах и к динамическому диапазону, который улучшается только при получении квадратного корня из коэффициента передискретизации. Формирование шума - это метод, который добавляет дополнительный шум на более высоких частотах, который устраняет некоторые ошибки на более низких частотах, что приводит к большему увеличению динамического диапазона при передискретизации. Для формирования шума n- го порядка динамический диапазон передискретизированного сигнала улучшается на дополнительные 6 n дБ по сравнению с передискретизацией без формирования шума. Например, для аналогового звука 20 кГц, дискретизированного с 4-кратной передискретизацией с формированием шума второго порядка, динамический диапазон увеличивается на 30 дБ. Следовательно, 16-битный сигнал, дискретизированный с частотой 176 кГц, будет иметь битовую глубину, равную 21-битному сигналу, дискретизированному с частотой 44,1 кГц, без формирования шума.
Формирование шума обычно реализуется с дельта-сигма модуляцией . Используя дельта-сигма модуляцию, Direct Stream Digital достигает теоретического отношения сигнал / шум 120 дБ на звуковых частотах с использованием 1-битного звука с 64-кратной передискретизацией.
Приложения
Битовая глубина - это фундаментальное свойство реализаций цифрового звука. В зависимости от требований приложения и возможностей оборудования для разных приложений используется разная битовая глубина.
Битрейт и размер файла
Битовая глубина влияет на битрейт и размер файла. Биты - это основная единица данных, используемая в вычислительной технике и цифровой связи. Битовая скорость относится к количеству данных, в частности битов, передаваемых или принимаемых за секунду. В MP3 и других аудиоформатах со сжатием с потерями битрейт описывает количество информации, используемой для кодирования аудиосигнала. Обычно измеряется в кб / с .
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .
Аналоговый и дискретный способы представления звука
Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.
При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.
При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.
Примером аналогового хранения звуковой информации является виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).
Восприятие звука человеком
Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.
Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.
В аналоговой форме звук представляет собой волну, которая характеризуется:
- Высота звука определяется частотой колебаний вибрирующего тела.
- Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
- Длительность звука - продолжительность колебаний.
- Тембром звука называется окраска звука.
Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с
Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).
Кодирование звуковой информации
Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
- В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
- Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.
Качество кодирования звуковой информации зависит от :
1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.
2)глубиной кодирования, т.е. количества уровней сигнала.
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.
РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.
WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали - это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.
RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.
IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga - одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.
MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.
AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.
МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для "обычных немузыкальных" людей потери не ощутимы явно.
VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF - процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.
RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.
Кодирование звука относится к способам сохранения и передачи аудиоданных. В приведенной ниже статье описывается, как работают такие кодировки.
Заметим, что это довольно сложная тема - "Глубина кодирования звука". Определение данного понятия также будет дано в нашей статье. Представленные в статье концепции предназначены только для общего обзора. Раскроем понятия глубины кодирования звука. Некоторые из этих справочных данных могут быть полезны для понимания того, как работает API, а также как формулировать и обрабатывать аудио в ваших приложениях.
Как найти глубину кодирования звука
Аудиоформат не эквивалентен аудиокодированию. Например, популярный формат файла, такой как WAV, определяет формат заголовка аудиофайла, но сам по себе не является кодировкой звука. WAV-аудиофайлы часто, но не всегда используют линейную кодировку PCM.
В свою очередь, FLAC является как форматом файла, так и кодировкой, что иногда приводит к некоторой путанице. В пределах Speech API FLAC глубина кодирования звука — это единственная кодировка, которая требует, чтобы аудиоданные включали заголовок. Все другие кодировки указывают беззвучные аудиоданные. Когда мы ссылаемся на FLAC в Speech API, мы всегда ссылаемся на кодек. Когда мы ссылаемся на формат файла FLAC, мы будем использовать формат «.FLAC».
Вы не обязаны указывать кодировку и частоту дискретизации для файлов WAV или FLAC. Если этот параметр опущен, API облачной речи автоматически определяет кодировку и частоту дискретизации для файлов WAV или FLAC на основе заголовка файла. Если вы укажете значение кодировки или частоты дискретизации, которое не соответствует значению в заголовке файла, API облачной речи вернет ошибку.
Глубина кодирования звука — это что такое?
Аудио состоит из осциллограмм, состоящих из интерполяции волн разных частот и амплитуд. Чтобы представить эти формы сигналов в цифровых средах, сигналы должны быть отбракованы со скоростью, которая может представлять звуки самой высокой частоты, которые вы хотите воспроизвести. Для них также необходимо хранить достаточную глубину бит для представления правильной амплитуды (громкость и мягкость) осциллограмм по образцу звука.
Способность устройства звуковой обработки воссоздавать частоты известна как его частотная характеристика, а способность создавать надлежащую громкость и мягкость известна как динамический диапазон. Вместе эти термины часто называют верностью звукового устройства. Глубина кодирования звука — это средство, с помощью которого можно восстановить звук, используя эти два основных принципа, а также возможность эффективно хранить и передавать такие данные.
Частота выборки
Звук существует как аналоговая волновая форма. Сегмент цифрового звука аппроксимирует эту аналоговую волну и сэмплирует ее амплитуду с достаточно высокой скоростью, чтобы имитировать собственные частоты волны. Частота дискретизации цифрового аудиосигнала определяет количество выборок, взятых из исходного материала аудио (в секунду). Высокая частота дискретизации увеличивает способность цифрового звука точно представлять высокие частоты.
Как следствие теоремы Найквиста-Шеннона, обычно нужно пробовать хотя бы вдвое большую частоту любой звуковой волны, которую необходимо записать в цифровом виде. Например, для представления звука в диапазоне человеческого слуха (20-20000 Гц), цифровой аудиоформат должен отображать не менее 40000 раз в секунду (что является причиной того, что звук CD использует частоту дискретизации 44100 Гц).
Бит глубины
Глубина кодирования звука — это влияние на динамический диапазон заданного образца звука. Более высокая битовая глубина позволяет представлять более точные амплитуды. Если у вас много громких и мягких звуков в одном и том же звуковом образце, вам понадобится больше бит, чтобы правильно передавать эти звуки.
Более высокие битовые глубины также уменьшают соотношение "сигнал/шум" в образцах аудио. Если глубина кодирования звука составляет 16 битов, музыкальный звук CD передается с использованием данных величин. Некоторые методы сжатия могут компенсировать меньшие битовые глубины, но они, как правило, являются потерями. DVD Audio использует 24 бит глубины, в то время как в большинстве телефонов глубина кодирования звука составляет 8 бит.
Несжатый звук
Большая часть обработки цифрового звука использует эти два метода (частоту дискретизации и глубину бит) для простого хранения аудиоданных. Одна из самых популярных технологий цифрового звука (популяризированная при использовании компакт-диска) известна как модуляция импульсного кода (или PCM). Аудио выбирается с установленными интервалами, и амплитуда дискретизированной волны в этой точке сохраняется как цифровое значение с использованием битовой глубины образца.
Линейный PCM (который указывает, что амплитудный отклик является линейно однородным по выборке) является стандартом, используемым на компакт-дисках и в кодировке LINEAR16 Speech API. Оба кодирования создают несжатый поток байтов, соответствующий непосредственно аудиоданным, и оба стандарта содержат 16 бит глубины. Линейный PCM использует частоту дискретизации 44 100 Гц на компакт-дисках, что подходит для перекомпоновки музыки. Однако частота дискретизации 16000 Гц более подходит для рекомпозиции речи.
Линейный PCM (LINEAR16) является примером несжатого звука, поскольку цифровые данные хранятся аналогичным образом. При чтении одноканального потока байтов, закодированного с использованием Linear PCM, вы можете подсчитать каждые 16 бит (2 байта) для получения другого значения амплитуды сигнала. Практически все устройства могут манипулировать такими цифровыми данными изначально — можно обрезать аудиофайлы Linear PCM с помощью текстового редактора, но несжатый звук - не самый эффективный способ транспортировки или хранения цифрового звука. По этой причине большинство аудио использует цифровые методы сжатия.
Сжатый звук
Аудиоданные, как и все данные, часто сжимаются, что облегчает их хранение и транспортировку. Сжатие в аудиокодировании может происходить либо без потерь, либо с потерями. Сжатие без потерь можно распаковать, чтобы восстановить цифровые данные в исходную форму. Сжатие обязательно удаляет некоторую информацию во время процедуры декомпрессии и параметризуется, чтобы указать степень толерантности к технике сжатия для удаления данных.
Без потерь
Без потерь сжимаются цифровые аудиозаписи, используя сложные перестановки сохраненных данных, что не приводит к ухудшению качества исходного цифрового образца. При сжатии без потерь при распаковке данных в исходную цифровую форму информация не будет потеряна.
Итак, почему методы сжатия без потерь иногда имеют параметры оптимизации? Эти параметры часто обрабатывают размер файла для времени декомпрессии. Например, FLAC использует параметр уровня сжатия от 0 (самый быстрый) до 8 (наименьший размер файла). Сжатие FLAC более высокого уровня не потеряет никакой информации по сравнению со сжатием более низкого уровня. Вместо этого алгоритму сжатия просто нужно будет затрачивать больше вычислительной энергии при построении или деконструировании оригинального цифрового звука.
API Speech поддерживает два кодирования без потерь: FLAC и LINEAR16. Технически LINEAR16 не является «сжатием без потерь», поскольку в первую очередь не задействовано сжатие. Если размер файла или передача данных важны для вас, выберите FLAC как ваш вариант кодирования звука.
Потеря компрессии
Сжатие аудиоданных устраняет или уменьшает некоторые типы информации при построении сжатых данных. Speech API поддерживает несколько форматов с потерями, хотя их следует избегать, поскольку потеря данных может повлиять на точность распознавания.
Популярный MP3-кодек является примером метода кодирования с потерями. Все методы сжатия MP3 удаляют звук извне обычного аудиодиапазона человека и регулируют уровень сжатия, регулируя эффективную скорость передачи данных кодека MP3 или количество бит в секунду для сохранения даты звука.
Например, стерео CD с использованием линейного PCM из 16 бит имеет эффективную скорость передачи битов. Формула глубины кодирования звука:
441000 * 2 канала * 16 бит = 1411200 бит в секунду (бит/с) = 1411 Кбит/с
Например, сжатие MP3 удаляет такие цифровые данные, используя скорость передачи данных, такие как 320 кбит/с, 128 кбит/с или 96 кбит/с, что приводит к ухудшению качества звука. MP3 также поддерживает переменные скорости передачи битов, которые могут дополнительно сжать аудио. Оба метода теряют информацию и могут влиять на качество. С уверенностью можно сказать, что большинство людей могут определить разницу между кодированной MP3-музыкой 96 кбит/с или 128 Кбит/с.
Другие формы сжатия
AMR и AMR_WB модулируют кодированный аудиокасс, вводя переменную скорость передачи битов в исходный звуковой образец.
Хотя Speech API поддерживает несколько форматов с потерями, вам следует избегать их, если у вас есть контроль над исходным аудио. Хотя удаление таких данных посредством сжатия с потерями может не оказывать заметного влияния на звук, слышимый человеческим ухом, потеря таких данных для механизма распознавания речи может значительно ухудшить точность.
Читайте также: