Как выполняется оцифровка звука 1 сигнал разбивается на пиксели
Начинаем рассказывать, как работают привычные технологии: компьютерный звук, видео, MP3, вещание и стриминги, всевозможные алгоритмы и всё подобное.
👍 У этой статьи нет никакой практической ценности, она просто для удовольствия. Иногда можно себя побаловать 🙂
Немного школьной физики
Звук — это колебания воздуха. Как волны на воде, только в воздухе. Воздух давит нам на уши, а в ушах есть чувствительные части, которые тонко чувствуют колебания воздуха. Эти колебания люди воспринимают как звук. В открытом космосе звуков нет, потому что там нет воздуха. И людей.
Частота. Чем быстрее колебания, тем тоньше воспринимаемый нами звук. Человек воспринимает колебания от 20 раз в секунду до примерно 20 тысяч раз в секунду. По-другому это называется частотой колебаний: герцами. То есть диапазон, который мы слышим — от 20 герц до 20 килогерц.
Для сравнения, собаки слышат от 40 герц до 60 килогерц, поэтому собачий свисток не воспринимается людьми, но очень хорошо слышен собакам. Собачий свисток как раз звучит в диапазоне 23–54 КГц.
Амплитуда. Чем сильнее колебания — тем громче, и наоборот. Можно представить, что это высота волн на поверхности пруда: может быть мелкая рябь (тихий звук), а могут быть большие мощные волны.
График. Если мы произнесём фразу «Привет, это журнал „Код“», то с точки зрения волн он будет выглядеть как-то так (очень примерно):
Делим звук на отрезки
Давайте увеличим наш график и посмотрим, что происходит, например, за одну секунду (опять же, очень примерно и упрощённо!):
Упрощённо!
А теперь сделаем вот что: разделим секунду на 4 части, и для каждой найдём значение амплитуды:
Мы за секунду четыре раза измерили состояние волны. Это называется дискретизацией
Мы измерили значение амплитуды в каждой из четырёх точек, получили, условно говоря, четыре числа: +30, −50, −50 и −60. Теоретически, если взять ток и подать эти четыре напряжения на динамик, у нас получится воспроизвести тот же звук. Но есть несколько проблем:
- Из-за того, что мы замерили волну только в четырёх местах, мы пропустили целое колебание. Оно было настолько быстрым, что уместилось между нашими ключевыми точками.
- Опять же, из-за больших отрезков мы получим очень грубый звук по сравнению с оригиналом. Это то же самое, как взять картину с тысячей разных оттенков и нарисовать её тремя цветами, не смешивая их.
Дискретизация с частотой 4 (сколько значений мы измеряем в секунду) — это слишком мало для звука. Чтобы получить более или менее разборчивую речь, нужно секунду делить на 8 тысяч отрезков, а для музыки обычно хватает 41 тысячи.
Увеличим частоту дискретизации: нарежем звук на более мелкие кусочки за ту же единицу времени:
Теперь измерения будут намного точнее, а получившийся звук — естественнее
Переводим в цифру
После того как мы разбили звук на мелкие отрезки и измерили значение амплитуды для каждого из них, мы можем записать это в виде таблички:
Время | Амплитуда |
0.01 сек. | 5 |
0.02 сек. | 7 |
0,03 сек | 10 |
. | . |
1 сек | −21 |
Если мы весь звук разбиваем на одинаковые отрезки, то время можно не писать, потому что мы знаем, как оно меняется, достаточно записать в строчку только значения амплитуды:
Чтобы компьютер понимал эти числа, переведём эти числа в двоичную систему счисления. Для простоты будем считать, что одно число занимает ровно один байт памяти, но на самом деле чем больше байт выделяется на число, тем точнее будет измерение и качество звука. После перевода получим такое:
Последнее большое число получилось оттого, что нам нужно хранить и отрицательные значения, поэтому первая единица в байте означает, что это отрицательное число и его нужно считать немного иначе.
Вот эту последовательность компьютер уже может понять и воспроизвести в виде звука.
Как теперь воспроизвести звук
Чтобы что-то зазвучало, нужно сделать следующие шаги:
- Взять колонки или наушники — что угодно, что умеет «толкать воздух», то есть создавать акустические волны. В колонках за это отвечают динамики, к которым подключены специальные мягкие конусы, которые, собственно, и создают колебания воздуха. Та круглая ерунда в колонке — это и есть конус.
- Подать на эти колонки некий ток. От того, насколько мощный этот ток, конус будет двигаться по-разному.
- Чтобы получить этот меняющийся ток, нужен специальный чип под названием ЦАП — цифро-аналоговый преобразователь. Он получает на вход число, а на выходе дает ток. У всех ваших смартфонов и компьютеров есть такие ЦАПы.
- Процессор отправляет цифры из звукового файла в ЦАП.
- ЦАП получает числа и выдаёт меняющееся электричество по этим цифрам.
- Электричество попадает в колонку, передаётся на динамик.
- Динамик из-за электричества начинает двигать конус колонки.
- Конус начинает толкать воздух перед собой, создавая звуковые волны.
- Волны долетают до наших ушей, и мы воспринимаем их как звук.
Что дальше
У такого способа есть одна проблема: файл получается слишком большим, чтобы им было удобно пользоваться. Представьте: 44 тысячи чисел за одну секунду!
Чтобы уменьшить размер файла, придумали два решения: сжатие с потерями и без них. Каждое разберём отдельно, несмотря на то, что у них много общего.
Как качественно оцифровать звук
О том, как пользоваться звуковой картой, написано множество книг и статей, в том числе и на нашем сайте. Однако, на этот раз речь пойдет не о том, что уже и без того известно каждому постоянному читателю раздела Мультимедиа, а о том, что называется практикой цифровой звукозаписи. Наверняка любой владелец мультимедийного компьютера рано или поздно приступает к этой увлекательной деятельности. Собственно, для этого (и не только) компьютер и приобретают. Тем не менее, процесс этот не столь прост, и нужно иметь некоторый навык для достижения максимального качества. Цель этой статьи — дать читателям сайта (и владельцам SB Live! среди них в частности) некоторые полезные рекомендации в этой области, которые по тем или иным причинам не освещены в прессе или Сети должным образом.
Начну с того, что в свое время передо мной встал вопрос сведения моей кассетной фонотеки в MP3 файлы, и я вынужден был потратить не одну ночь для того, чтобы сделать процесс перегона аудиоинформации в компьютер по возможности более качественным и более универсальным для большинства аудиозаписей. Скажу сразу, несмотря на солидный опыт звукозаписи (и аналоговой и цифровой), это, на первый взгляд, невинное занятие потребовало у меня мобилизации многих сил и знаний.
Однако, пользователь приличной звуковой карты совершенно не обязан (как я) иметь высшее радиотехническое образование, и все же, достойное качество полученной записи требовать вправе. Считаю своим долгом дать аудитории iXBT тот самый минимум информации, который, надеюсь, избавит многих от неприятностей, связанных с оцифровкой аудио (таких как помехи, наводки и т.д). Полагаю, что некоторые сведения в этом материале будут полезны и опытным пользователям. Для того чтобы не выйти за рамки приличия, скажу также, что все написанное ниже — результат обобщения опыта многих людей, но, конечно же, не претендует на истину в последней инстанции. Обоснованная критика от читателей — это всегда хорошо! (Свои отзывы на статьи можно писать и в нашу конференцию О материалах сайта).
Общие замечания
Наиболее часто пользователям мультимедиа приходится оцифровывать следующие источники:
Виниловые пластинки. Здесь главное — хороший проигрыватель и предусилитель-корректор (тот, что встраивается в дорогие усилители). Из отечественных проигрывателей порекомендую Феникс ЭП 009С (алмазный эллипс в качестве головки, автоматический тонарм). А дальше — записываем пластинку на компьютер, чистим от щелчков (Click Removal), фильтруем инфразвук ниже 16 Гц (для устранения рокота) и нарезаем запись на песни. Шум лучше не удалять, так как шум в 65-70 дБ на выходе проигрывателя (или корректора) не так уж и велик. Например, 65-70 дБ выдает аналоговый выход большинства CD-ROM и ведь ничего? А вот с фоном (неприятным низкочастотным тоном в 50, 100, 150 и так далее Гц) лучше разобраться до оцифровки — где-то висит земля, или перепутаны полюса внутри проигрывателя.
Микрофон. Я подразумеваю хороший микрофон и микрофонный усилитель. И про то, и про другое можно найти массу информации в печатных изданиях, да и в Сети тоже. Дам совет только в одном.
Дело в том, что в студийной практике применяется один очень умный принцип для соединительных кабелей. Про витую пару сигнальных линий все уже знают, но вот как припаивать провода на концах проводов — лишь посвященные, да и то не все.
На рисунке ниже показано, как правильно изготовить шнур, который не внесет никакого вклада в качество записи, если он состоит из качественных проводов. В качестве экрана — медная оплетка (желательно, чтобы везде применялась медь!). Сигнальные жилы внутри экрана — витая пара медных многожильных проводов. Подобный кабель лучше купить в каком-нибудь магазине, где продают профессиональные микрофоны, гитары, и т.п. (дешевле обойдется провод, чем помехи). Стоит отметить, что только с микрофоном необходимо столь щепетильно отнестись к кабелю, иначе будете менять микрофонные усилители и сами микрофоны до греческих календ.
Если картинка не очень понятна, знайте сам ПРИНЦИП:
Экран соединен с металлической основой капсюля (если она металлическая) или просто висит внутри корпуса микрофона, а на входе (только лишь на входе. ) экран соединяется с землей. Тогда помехи и наводки, попав в экран, стекают в одну точку (как бы компенсируются), а не циркулируют по экрану. Экран не должен быть "антенной для помех"!
Я надеюсь, инженеры простят мне столь вольное толкование этой важной истины, а эстеты подобный эскиз :).
В случае с электрогитарой — руководствоваться тем же! Электрогитара — тот же микрофон, только менее чувствительный. Экран коммутационной схемы внутри гитары (если нет — сделайте из жести или шоколадной фольги) присоединяем к экрану, а потом, также соединяем на входе карты или приставки с землей. Не играйте на этом инструменте вблизи системного блока — изготовьте кабель подлиннее.
Вот только не стоит гробить студийную технику! Просто проверьте, как распаяны разъемы и все. Микрофон с профессиональным разъемом CANON (это такой здоровый, с защелкой) имеет обычно землю на штырьке номер 3 — тот, что посередине, если не так — уточните у продавца (не дарить же 100$ за новенький Shure SM58!?).
Шнуры от микрофонного усилителя/процессора/магнитофона и т.д. паяем по тому же принципу (экран соединяем с землей на входе), только здесь добавляется еще жила второго стереоканала. Не мешает заземлить и системный блок компьютера.
Надеюсь, вы согласны с тем, что грамотно созданный шнур не столь уж плох в сравнении с кабелем Monster Cable или Vampire, хотя если ваш шестиканальный DSP-усилитель стоит 1000$ — все же потратьтесь на приличный кабель.
А вот с компакт-кассетой 2 не так все просто. Тут запись и очистка от артефактов — самое настоящее искусство и подходы у опытных людей свои. Я же поделюсь моими методами, позволившими ИМХО 3 выжать из кассеты все ценное.
2 Ирония судьбы — компакт-кассета и компакт-диск сейчас уже не кажутся нам компактными. А уж их "некомпактных" собратьев из эпохи динозавров так вообще мало кто помнит. Так что, производителям надо было быть поосторожнее с выбором названий в своё время.
Вся штука в том, что у компакт-кассеты ограниченный ресурс эксплуатации (примерно 300 прогонов). Потом информация начинает теряться, звук становится рассыпчатым, глухим, прерывистым. Кроме того, более целесообразно гонять CD с отполированными MP3 файлами, чем вставлять кассету, крутить головку, чистить тракт спиртом и т.д. (хотя и у этого ритуала есть приверженцы!). К тому же, отреставрированная фонограмма с приличной по качеству кассеты ИМХО иногда даст фору по насыщенности деталями и аналоговой "теплоте" многим 128 Кбит MP3 — файлам. Я не распространитель мифов о дискретной и мертвой цифровой записи (хотя лет пять назад был другого мнения, да и АЦП/ЦАП были не те), но кассету хоронить рано, и владельцы хороших стационарных аппаратов меня поддержат!
Реставрация
1. Выравнивание АЧХ
Почти на любую стандартную кассету (TDK D, и т.д.), да и на кассеты подороже аудиозапись попадает практически одинаково. Если у вас не TEAC за 900$ или не Nakamichi Dragon, то разницы нет: AIWA или ВЕГА. На подобных "бюджетных" аппаратах воспроизводимый с кассеты сигнал больше зависит от свойств магнитной ленты, нежели от тракта воспроизведения. А магнитная лента на "железных" кассетах просто не пропустит частоты выше 14000 Гц, остальное будет жестоко ослаблено.
АЧХ тракта запись-воспроизведение для магнитофона ВЕГА-МП122С:
Конечно, тракт записи-воспроизведения у всех магнитофонов различен и особенно дотошным владельцам хороших стационарных магнитофонов исследования предстоит проделать самостоятельно. Для этого (а также для дальнейшего мастеринга) нам понадобятся последние версии знакомых программ (или хотя бы их демо-версии):
-
, или 2000 для создания белого шума, синусов, фильтрации и очищения от шумов и т.д. для монтажа (оцифровка, нарезка материала) для всестороннего анализа
- Энтузиасты могут применять внешние денойзеры (удаление шума), типа Sonic Foundry Noise Reduction 2.0, Arboretum Restoration-NR и др., но я после многочисленных субъективных и объективных исследований остановился на встроенном средстве Cool Edit Pro (хотя долго не мог с этим смириться). Все же программисты Syntrillium Software свой хлеб едят не зря! 4 То же касается и фильтрации.
4 Cледует отметить, что коммерческая версия программы Cool Edit (Cool Edit Pro 1.2) существенно отличается от своего бесплатного собрата (Cool Edit 2000). Например, Cool Edit 2000 не имеет функции Preview (предварительного прослушивания) при обработке, Multitrack-режима и т.д. И тем не менее, все необходимое для наших задач имеется в обеих версиях программы Cool Edit.
Процедуру исследования тракта записи/воспроизведения магнитофона лучше проделать так:
- Очистить воспроизводящую головку магнитофона и прижимной ролик с ведущим валом спиртом, затем, поместив чистую (с обеих сторон!) кассету в магнитофон, приготовить ее к записи.
- Далее, подав белый шум 5 (48 кГц) на вход (Generate/Noise…/White, mono, intensity = 12 в Cool Edit), добиться оптимального уровня записи на Вашем магнитофоне и записать около 3-х минут (если компьютер не ниже Celeron+64Mb) или 60 секунд этого шума (ежели машина слабее). Магнитная лента весьма неравномерно реагирует на последовательное изменение значения частоты (Frequency Sweep), поэтому, из соображений статистики лучше использовать белый или розовый шум. Это обеспечивает более точный и равномерный график АЧХ.
- Далее, следует, не вынимая кассету и не подкручивая воспроизводящую головку, записать только что полученный белый шум — с кассеты на Line-In звуковой карты (частоту дискретизации ставим 48 кГц). 6
- Теперь нормализуем полученный сигнал под -1 дБ (Process/Normalize… в Sound Forge 4.5), и сохраняем.
- В SpectraLAB выбираем Mode/Post Process, и открываем только что полученный файл. Делаем настройки (Settings): 48000, 16bit, FFT Size = 65536 (для слабой машины 16384), mono, Average = linear. Выделяем весь файл в режиме View/Time Series, жмем правую кнопку и приказываем: Compute and Display Average Spectrum.
- Смотрим на спектр и кривимся неравномерности АЧХ нашего магнитофона J. В Cool Edit открываем этот же файл и поднимаем ослабленные частоты (FFT Filter etc.). Сохраняем (но не закрываем. ) в другой файл и этот другой открываем в SpectraLAB (первый файл пригодится в случае порчи второго). Чтобы запомнить огибающие спектра в SpectraLAB для сравнения — жмите Set в районе Overlays.
- Не красиво? Отменяйте в Cool Edit фильтрацию — и снова!
5 Использовать розовый шум предпочтительнее, так как он ближе по свойствам к музыкальному сигналу.
6 Почему это обязательное условие для получения налучшего качества записи, читайте статьи с измерениями тестовых параметров звуковых карт на нашем сайте.
Как видите, искусство и здесь требует жертв :(. Однако я повторяю — на хороших аппаратах тракты Record-Play очень схожи, и вы можете воспользоваться моими результатами исправления АЧХ для магнитофона МП ВЕГА-122С. Для этого в файле C:\Windows\cool.ini найдите раздел [Filters96] и в незанятой строке запишите (в одну линию!) следующее:
Item29=RESTORATION,3,19,0,20,426,5,845,0,1288,0,1986,0,2259,0,2855,6,3179,9,3444, 21,3583,28,3688,42,3773,48,3848,61,3925,76,3957,96,3998,100,4004,100,4012,5,4096,5, 19,0,20,426,5,845,0,1288,0,1986,0,2259,0,2855,6,3179,9,3444,21,3583,28,3688,42,3773, 48,3848,61,3925,76,3957,96,3998,100,4004,100,4012,5,4096,5,2,0,12000,1,2,0,0,1000, 100,5,-10,100,-0.5,12,24000,1,0,1,1,48000
Теперь в Transform/Filters…/FFT Filter (все в том же Cool Edit) ищем пресет RESTORATION и корректируем фонограмму. Все. Я убил 2 дня, чтобы выровнять АЧХ своей ВЕГИ до значения ±0,5 дБ от 10 до 19500 Гц! Наслаждайтесь. АЧХ ВЕГИ-МП122С до (зеленый график) и после (желтый график) частотной коррекции:
2. Владельцам SB Live!
Многие владельцы SB Live!1024 Value знают, что АЧХ кодека SigmaTel STAC9721 совсем не идеальна и уже после 4,5 кГц начинается ступенчатый спад:
Основной вклад в это вносит АЦП кодека, в чем можно убедиться, скажем, в этой статье. Сделано это, с одной стороны, для нашего же блага: таким образом предотвращается проникновение паразитных гармоник в слышимую область спектра. С другой стороны, подобное "подрезание" верхов имеет и негативное последствие: на достаточно серьезной Hi-Fi-аппаратуре этот ньюанс может быть вполне заметен.
Поэтому, всем владельцам SB Live! НАСТОЯТЕЛЬНО рекомендую каждую записанную фонограмму через Line-IN сначала, то есть до последующей обработки, пропустить через следующий фильтр (тот же cool.ini и тот же раздел):
Item36=CORRECtion,3,20,0,0,83,0,532,1,793,1,1003,2,1223,4,1713,5,2046,10,2391, 12,2569,15,2710,18,3066,24,3234,27,3398,35,3480,41,3546,47,3628,56,3726,70,3825, 89,4096,100,20,0,0,83,0,532,1,793,1,1003,2,1223,4,1713,5,2046,10,2391,12,2569,15, 2710,18,3066,24,3234,27,3398,35,3480,41,3546,47,3628,56,3726,70,3825,89,4096,100, 2,0,12000,1,2,0,0,1000,100,3,-10,100,0,14,24000,1,0,0,1,48000
Кстати, номер Item должен не совпадать ни с каким другим, ну а так — любой…
После подобной операции неравномерность АЧХ в кольце LineOUT — LineIN для звуковой карты SB Live! удалось уменьшить до ±0,1 дБ! В этом можно убедиться, взглянув на спектрограмму (мне это далось в свое время опять же ценой пары ночей).
АЧХ звуковой карты SBLive (кодек STAC9721) до и после частотной коррекции. Шкала графика 5 дБ!:
Теперь линейный вход у нас — референс! Enjoy…
Владельцам микрофона МД-52А (студийный, 20-16000Гц) посоветую следующую коррекционную фишку:
Item40=MIC_MD52A,3,8,0,0,1723,17,2158,37,2569,53,3176,89,3316,100,3480,100,4096, 100,11,0,50,4,51,5,60,6,73,8,81,10,85,14,87,17,79,19,60,24,51,4096,50,2,1,6000,1,4, 0,0,648,31,831,57,1000,100,3,0,100,0,16,24000,2,1,0,1,48000
Не забываем, что строка неразрывна во всю свою длину.
3. Шумоподавление
Теперь поговорим о шумоподавлении. Как я уже указал — Noise Reduction в Cool Edit — на мой взгляд — лучший. Звукорежиссеры хвалят Arboretum Ionizer, якобы из-за того, что он избавлен от внесения фазовых артефактов в обработанный материал (если знаете где взять — напишите!), знакомые советуют Sonic Foundry Noise Reduction. Но мои уши пока что влюблены в CoolEdit-овский шумодав. Кроме того, ни в каком другом нет столько настроек и опций, да и то, что он работает медленнее (читай добросовестнее) других — тоже говорит о многом. Существует также весьма неплохая программа реставрации DART Pro, однако детальное сравнение всех этих программных продуктов выходит за рамки данной статьи.
Итак, после многотрудной фильтрации необходимо взять 1,5-1,6 секунд шума перед каждой (для максималистов) или какой-нибудь средней фанерой (но только с той же кассеты и стороны, откуда взята фонограмма). Далее:
-
1. Сделать профиль этого 1,5 секундного шума (Get Profile from Selection) с параметрами:
Нередко приходиться повторно нормализовать фонограммы под -0,2 дБ (это стандарт для CD-Audio), так как шумоподавление может серьезно уменьшить энергию сигнала. Все готово к MP3-кодированию! Правда, бытует мнение, что нормализация перед сжатием в MP3 — это очень вредно, и Вы на это должны идти лишь в случае ощутимого различия между уровнями отдельных каналов или просто слабого (-3…-6 дБ) уровня фонограммы в конечном итоге. Это как раз тот случай, когда решать Вам.
4. Сжатие
Лично я пользуюсь кодером Fraunhofer IIS, встроенный в BPM Studio Pro 3.0. Остальные кодеры (ИМХО) от Fraunhofer IIS не могут преодолеть своеобразного шелеста в полученном файле, причем на всех битрейтах. А вот к LAME -f я отношусь настороженно, этот кодер, по-моему, только на АЧХ и хорош.
Теперь о битрейте. Честно говоря, все ньюансы сохраняются лишь при 256 Кбит/c, но и при 192 Кбит/c фонограмма почти неотличима от исходной. Для проверки того, какой битрейт наилучший для данной фонограммы, я применяю довольно жестокую методику субъективного сравнения. Сначала кодирую наиболее ответственный фрагмент (насыщенный высокими частотами или с какими-нибудь знакомыми ньюансами) во все битрейты: 128, 160, 192, 224, 256. Затем последовательно соединяю в Sound Forge оригинальный фрагмент с закодированным и слушаю. Обычно 128 и 160 Кбит/с выпадают из рассмотрения сразу, а настоящая борьба разворачивается между 192 и 256 Кбит/с (ну не люблю я поток в 224 Кбит/c, ибо кривой он какой-то :)).
Для отреставрированных фонограмм вполне хватает и 192 Кбит/с, но опять-таки некоторым и 256 Кбит/c подчас не хватает. Скажу также, что магнитофонные записи представляют собой весьма непростой для кодирования материал. Как-то раз я подверг, как теперь принято говорить, "зачистке" фонограмму с весьма посредственным качеством и закодировав потом все в 192 Кбит/c я был потрясен услышанным! Результат звучал словно джаз на 112 Кбит/c, то есть омерзительно. У этого феномена очень глубокая причина и я могу написать еще одну статью на эту тему, если желаете. Так что, доверяйте технике и спектрограммам, но контрольное прослушивание устроить не ленитесь. Тем не менее, по большей части эта информация относится к обладателям хорошего тракта усилитель-колонки (наушники).
Заключение
Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.
Чем отличается цифровой аудиосигнал от аналогового?
Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).
Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).
Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.
Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).
Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).
Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).
Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).
Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)
Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).
Данная формула позволяет вычислить количество уровней квантования:
Если N — количество уровней квантования,
n — разрядность, то
Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.
При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.
Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()
Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).
Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).
Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).
рис. 10. Интенсивность шумов при разрядности 6 бит и 8 битОшибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.
50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.
Теперь о дискретизации.
Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то
Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).
Теорема Котельникова гласит:
Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.
Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.
Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?
Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.
Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.
Аудиопример 4: Линейно возрастающая частота от
100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.
Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг
Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.
Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.
Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):
Битрейт = Частота дискретизации * Разрядность * Количество каналов
Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s
При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.
При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.
Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.
При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.
ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.
Существуют 3 метода хранения цифрового аудиоматериала:
- Несжатые («сырые») данные
- Данные, сжатые без потерь
- Данные, сжатые с потерями
Несжатый (RAW) формат данных
содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).
Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.
Аудиоформаты с сжатием без потерь
Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.
Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.
Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).
Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…
При сжатии с потерями
акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».
Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.
Как называется минимальный элемент растрового рисунка, для которого можно задать свой цвет?
Вопрос 2
Какие высказывания относятся к растровому формату кодирования рисунков?
- рисунок разбивается на квадратики - пиксели
- рисунок представляется в виде набора геометрических фигур
- размер файла зависит от глубины цвета
- считается, что каждый пиксель закрашен одним цветом
- нет потерь информации при кодировании
Вопрос 3
Какие форматы можно использовать для хранения растровых рисунков в режиме истинного цвета (True Color)?
Вопрос 4
Какие из утверждений относятся к векторному кодированию рисунков?
- метод пригоден для любых рисунков
- рисунки занимают мало места
- это кодирование с помощью набора геометрических фигур
- это кодирование только с помощью отрезков и прямоугольников
- форма фигур описывается математическими формулами
Вопрос 5
Какие форматы файлов используются для хранения векторных рисунков?
Вопрос 6
Подсчитайте, сколько байт в памяти занимает рисунок размером 20 на 30 пикселов, закодированный с палитрой 64 цветов. Место для хранения палитры не учитывайте.
Вопрос 7
Как выполняется оцифровка звука?
- сигнал разбивается на пикселы
- реальный сигнал заменяется на ступенчатый
- записывается код музыкального инструмента и ноты
- в памяти хранятся значения сигнала, измеренные через короткие интервалы
- оцифровку можно использовать только для кодирования песен
Вопрос 8
Какие форматы файлов используют для хранения оцифрованного звука?
Вопрос 9
Вопрос 10
Производилась четырёхканальная (квадро) звукозапись с частотой дискретизации 16 кГц и 24-битным разрешением. В результате был получен файл размером 48 Мбайт, сжатие данных не производилось. Какая из приведённых ниже величин наиболее близка к времени, в течение которого проводилась запись?
Читайте также: