Схема оцифровки звукового сигнала
Одной из основных задач информатики является представление данных в виде удобном для хранения и передачи. Эти данные могут быть разного типа – звуковые, текстовые, графические и т.д. В этой статье мы расскажем про кодирование звуковой информации. Из этой статьи Вы узнаете основные принципы и определения. Также после прочтения сможете посчитать объем аудио файла. Читайте!
Основные определения
Для того чтобы разобраться в теме надо знать, что представляет собой звуковая информация (звук).
Звук – это непрерывная аналоговая волна, которая распространяется в окружающей среде. В роли среды может выступать воздух, жидкость, твердое тело, электричество и т.д.
Звук, как непрерывную волну, характеризуют две характеристики – частота и амплитуда.
От амплитуды зависит громкость аудио сигнала . Чем выше амплитуда, тем громкость больше.
Частота же характеризует тональность аудиоинформации . Чем больше частота, тем тональность выше. Человеческий слух улавливает волны от 20 Гц до 20 кГц. 1 Гц равен 1 колебанию аудио сигнала в секунду.
Представление и кодирование звуковой информации в компьютере
Для представления и кодирования звука используются специальное оборудование и программы. Рассмотрим весь процесс более подробно.
- Аудиоинформация, поступая из окружающей среды (например, по воздуху), преобразуется в электрический сигнал. Для этого используется такое устройство, как микрофон.
- После этого звук поступает на АЦП (аналого-цифровой преобразователь), где подвергается оцифровке.
- На последнем этапе информация (уже в двоичном виде) кодируется при помощи специальной программы – аудиокодека. На выходе получается файл в специальном формате (например, mp3), который можно хранить, воспроизводить и передавать.
Наибольший интерес представляет процесс оцифровки, также называемым аналого-цифровым преобразованием. В результате него аналоговый сигнал заменяется на цифровой.
Основной принцип аналогово-цифрового преобразования заключается в том, что через равные промежутки времени измеряется амплитуда волны. Также этот процесс называется дискретизация.
Дискретизация – это процесс в результате, которого непрерывная функция представляется в виде дискретной последовательности её значений. Схематично дискретизацию можно представить так:
Дискретизация характеризуется двумя такими величинами, как:
- Частота шага по времени;
- Шаг квантования.
Первая величина отображает, как часто берутся дискреты и измеряется в Герцах (количество измерений за одну секунду). Частота шага по времени находится по теореме Котельникова.
Шаг квантования характеризуется количеством уровней , до которых округляются величины амплитуды волны.
Количество уровней (ступенек) до которых округляются значения сигнала, зависит от аналого-цифрового преобразователя. На данный момент используются 16, 32 и 64 битные устройства.
Количество бит, затрачиваемое для номеров уровней, называется глубиной кодирования звуковой информации.
Глубина кодирования связано с количеством уровней по формуле:
Где i разрядность АЦП в битах.
Чем чаще берутся дискреты за единицу времени и больше глубина кодирования, тем выше качество звуковых данных на выходе и дороже АЦП.
Расчет объема аудио файла
\[V = 60*1*8000*8=3840000 \ бит \]
Форматы аудио
Форматов для хранения аудио много, однако, все они делятся на две большие группы в зависимости от того, какой из методов сжатия используется – LOSELESS или LOSSY.
- LOSELESS – метод сжатия без потерь. Качество звуковой информации остается без изменений, однако за него приходится платить большим объемом компьютерной памяти. Используется для хранения музыки и других данных, где важно качество. Форматы, которые основаны на данном методе сжатия: FLAC, APE, TAC, ALAC и другие. На данный момент зарабатывают все большую популярность в связи с увеличением дискового пространства.
- LOSSY – сжатие с потерями. При таком методе файл сохраняются с искажениями относительно оригинала. В основном эти искажения не воспринимаются человеческим слухом, а также не замечаются при плохом аудио оборудовании. LOSSY позволяет существенно сэкономить дисковое пространство. На данный момент этот метод сжатия является доминирующим.
Форматы кодирования использующие алгоритмы LOSSY:
- MP3 (MPEG-1,2,2.5) – самый популярный аудио формат. Проигрывается на всех аудио и видео системах, по умолчанию поддерживается всеми операционными системами. Искажения заметны на высокоточной дорогостоящей аппаратуре.
- AAC – формат, который разрабатывался и позиционировался, как приемник mp3. Не получил широкого распространения. Преимущества перед mp3: большая гибкость кодирования, возможность использовать до 48 звуковых каналов.
- HE-AAC (High-Efficiency Advanced Audio Coding) – используется в цифровом радио и телевиденье.
Заключение
Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.
Чем отличается цифровой аудиосигнал от аналогового?
Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).
Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).
Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.
Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).
Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).
Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).
Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).
Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)
Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).
Данная формула позволяет вычислить количество уровней квантования:
Если N — количество уровней квантования,
n — разрядность, то
Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.
При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.
Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()
Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).
Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).
Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).
рис. 10. Интенсивность шумов при разрядности 6 бит и 8 битОшибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.
50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.
Теперь о дискретизации.
Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то
Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).
Теорема Котельникова гласит:
Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.
Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.
Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?
Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.
Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.
Аудиопример 4: Линейно возрастающая частота от
100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.
Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг
Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.
Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.
Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):
Битрейт = Частота дискретизации * Разрядность * Количество каналов
Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s
При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.
При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.
Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.
При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.
ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.
Существуют 3 метода хранения цифрового аудиоматериала:
- Несжатые («сырые») данные
- Данные, сжатые без потерь
- Данные, сжатые с потерями
Несжатый (RAW) формат данных
содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).
Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.
Аудиоформаты с сжатием без потерь
Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.
Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.
Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).
Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…
При сжатии с потерями
акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».
Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.
Эта статья рассчитана на людей, не сталкивавшихся ранее с оцифровкой звука, но которые хотят особенно не заморачиваясь, максимально просто и быстро перевести в цифру свои аудиозаписи. Речь не идёт о профессиональной или даже полупрофессиональной оцифровке. Эта статья о быстрой оцифровке подручными средствами.
У многих из тех, чья молодость пришлась на девяностые, восьмидесятые и ещё более ранние года, наверняка сохранились записи личного характера на магнитной ленте (кассетах и катушках), которые нельзя найти в цифровом виде ни в Интернете, ни на лотках магазинов. Такие записи могут быть очень ценны, и хотя магнитная плёнка, как выясняется, оказалась довольно устойчива ко времени вопреки разным страшилкам (в отличие от компакт-дисков, например), кассетные деки уже почти не выпускаются, и поэтому записи имеет смысл перевести в цифровой вид уже сейчас.
На сегодняшний день я нашёл в продаже только две магнитолы с кассетными деками: Panasonic RX-D55 и Sony CFD-S70 за 11 и 9 тысяч рублей соответственно.
Технология любительской оцифровки несложна, и её можно осуществить самостоятельно, не пользуясь услугами соответствующих компаний. Для примера рассмотрим в этой статье перевод аудиоматериала с кассет в mp3-файлы.
Введение
Сначала мне хотелось бы дать небольшое количество полезной технической информации, чтобы вы в общих чертах представляли, что мы будем делать дальше. Но если вы гуманитарий, то вполне можете пропустить эту главу. А для оставшихся я продолжу максимально доступно.
Как известно, любая оцифровка — это округление. Округление аналогового, плавного сигнала, до ближайшей цифры, приблизительно равной истинной величине сигнала. Цифра всегда дискретна. Вдобавок промеры этой величины происходят с некоторым интервалом, в то время, как аналоговая запись не имеет таких перерывов. Отсюда вывод — в любом случае оцифрованный сигнал будет содержать меньше информации, чем изначальный аналоговый.
Кроме того, на качество самой оцифровки влияют также и характеристики плёнки, магнитофона, звуковой карты компьютера, даже её тип (внешняя/внутренняя), а также интерфейс передачи данных (для внешних карт) и качество соединительного шнура.
Справедливости ради замечу, что отличие аналогового и цифрового звука для большинства нормальных людей абсолютно неразличимо, а при оцифровке на хорошей аппаратуре и с высокими значениями параметров оцифровки оно практически незаметно даже для аудиофилов, хотя некоторые из них всё же говорят, что чувствуют разницу. Однако, думаю, что это чисто психологическое ощущение, ибо сложно недооценивать психику восприятия в этом вопросе.
Преимущество же оцифровки в том, что оцифрованный материал может храниться без ущерба для себя неопределённо долго, его можно передавать через Интернет, при дальнейшем копировании его качество не теряется и его можно всячески редактировать — например, чистить от шумов цифровыми методами.
Для оцифровки мы будем использовать компьютер со звуковой картой. Звуковая карта состоит из двух половинок. Первая — это АЦП (аналогово-цифровой преобразователь), служащий для записи аналогового звука в компьютер (собственно оцифровка) и ЦАП (цифро-аналоговый преобразователь), служащий для обратного действия — воспроизведения оцифрованного сигнала, т.е. выдача его в аналоговом виде на колонки.
Тщательность работы АЦП настраивается всего двумя параметрами, смысл которых легко понять:
- Частота дискретизации (кГц) — частота, с которой АЦП измеряет оцифровываемый аналоговый сигнал, поданный ему на вход извне. Другими словами, это количество промеров входящего аналогового сигнала, выполняемых за одну секунду. Соответственно, и при воспроизведении оцифрованного звука он принимается из файла или звукового компакт-диска на ЦАП с той же частотой, с какой был промерен и записан. Для звуковых компакт-дисков этот параметр равен 44,1 кГц.
- Битовая глубина (бит) — количество бит, которое отводится на хранение результата каждого промера. Для записей на звуковых компакт-дисках этот параметр равен 16 битам. Таким образом, громкость сигнала на звуковом компакт-диске может иметь до 65535 градаций.
Для считывания аналогового сигнала и его хранения мы выберем уже упомянутые значения перечисленных выше параметров, а именно: 44,1 кГц и 16 бит, используемые в обычных звуковых компакт-дисках. Этого качества нам будет вполне достаточно. Для считывания можно было бы выбрать и более высокие параметры, чтобы точнее оцифровать сигнал, но в этом есть следующие минусы:
- АЦП старых звуковых карт могут не поддерживать более высокие параметры, а те, которые поддерживают, могут хуже оцифровывать сигнал на пределе своих характеристик. В этом случае качественнее окажется сигнал, уверенно считанный при менее амбициозных значениях параметров.
- Любое преобразование оцифрованного аудиоматериала — это дополнительные погрешности округления. Поэтому оцифровывая сигнал с теми же параметрами, с какими мы будем его в дальнейшем записывать в файл MP3, мы исключим эти погрешности. Мы всё равно решили записывать сигнал качества звукового компакт-диска (44,1 кГц 16 бит), а избыточность может пригодиться только при редактировании аудиоматериала, которым мы заниматься не будем.
- С ростом значений параметров растёт и размер файла с оцифрованным звуком. При качестве звукового компакт-диска он уже будет равен 500 мегабайтам для 45 минут звучания (1 сторона кассеты). Кроме того, программа, которой мы будем пользоваться, почему-то не работает с wav-файлами, размер которых приближается к трём гигабайтам. А это размер, который достигается при оцифровке 45 минут на максимальных параметрах (192 кГц 24 бита).
Для конвертирования оцифрованного материала в файлы формата MP3 введём ещё один параметр — битрейт.
- Битрейт (кбит/с) — количество бит, которое используется для хранения одной секунды звука. Битрейт компакт диска равен 1411 кбит/с (44,1 кГц * 16 бит * 2 канала). При сжатии звука в формат MP3 часть малослышимой ухом звуковой информации выбрасывается, что позволяет резко снизить битрейт (а значит и объём информации) без существенного слышимого ущерба качеству. Субъективным минимумом для качества, схожего с качеством звукового компакт диска, является битрейт 192 кбит/с. Это тот минимум, который субъективно позволяет сохранить качество, сравнимое с качеством звуковых компакт-дисков.
Казалось бы, учитывая наше изначально невысокое качество кассетного звука, его можно было бы без ощутимого ущерба упаковать и в более низкий битрейт. Но кассетный звук включает в себя характерный фоновый шум, который тоже оцифровывается, занимая некоторое место, и при более низком битрейте он просто вытеснит часть полезного сигнала из файла. Так что ниже 192 кбит/с при оцифровке с магнитной ленты опускаться не стоит, да и выше подниматься особого смысла нет, поскольку запас качества, который бы дал нам более высокий битрейт, останется в нашем случае просто невостребованным.
Необходимые для оцифровки инструменты
Для осуществления оцифровки нам понадобятся следующие вещи:
- Магнитофон кассетный с линейным выходом (идеально — магнитофон-приставка максимально высокого класса, в худшем случае — кассетный плейер с гнездом для наушников).
- Компьютер со звуковой картой.
- Соединительный шнур со штекерами, соответствующими линейным гнёздам магнитофона и звуковой карты.
- Программа для захвата и обработки звука.
Рассмотрим по порядку все вышеперечисленные компоненты.
1. Магнитофон. К сожалению, зарубежные магнитофоны, в отличие от советских, в основной своей массе не снабжаются гнездом линейного выхода (видимо, буржуи вступили в сговор, и не разрешают простому народу друг у друга ничего переписывать, чтобы те всегда сами покупали музыку за денежки. Теперь это культурно называется «защита авторских прав») . Поэтому, если в вашем распоряжении нет магнитофона с линейным выходом, в качестве такового можно использовать гнездо для наушников. Для этого следует все регуляторы частот на магнитофоне поставить в среднее положение, чтобы они не вносили искажения при перезаписи, а громкость установить на четверть от максимальной.
Если же вы обладаете познаниями в радиоэлектронике, то лучше всего разобрать такой магнитофон, и снять сигнал непосредственно с предварительного усилителя, до регуляторов громкости и частот.
Но лучше всего использовать в качестве источника звука магнитофонную приставку. Подойдёт даже советская Яуза с её вторым классом сложности и заявленным частотным диапазоном 31,5—14000 Гц, а для кассет на основе двуокиси хрома и до 16000 Гц, что очень даже неплохо:
Советские магнитофоны подразделялись на классы сложности с 0 по 4. О классе говорит первая цифра в номере. Например, Яуза МП-221С-2 относится ко второму классу сложности. Чем меньше цифра, тем выше класс, и тем лучше характеристики магнитофона. При оцифровке качественных записей магнитофонами классов 3 и 4 лучше не пользоваться.
Также нам понадобится доступ к регулировочному винту считывающей головки магнитофона. Дело в том, что дорожки, записанные на разных магнитофонах или даже на одном магнитофоне, но в разное время, редко совпадают, и для получения наилучшего звучания нам придётся подстраивать головку на слух под дорожку каждой кассеты. Это даёт очень существенный выигрыш в качестве, поэтому этим не стоит пренебрегать.
В магнитофонной приставке Яуза головка закрыта панелью, которая снимается при сдвигании её влево:
2. Компьютер со звуковой картой. Для оцифровки 45 минут звука с качеством звукового компакт-диска, на жёстком диске должно быть свободно около 500 мегабайт для 45-минутного wav-файла и около сотни мегабайт для MP3-файлов, в которые мы будем конвертировать отдельные треки.
На звуковой карте сзади имеются круглые разъёмы TRS mini-jack (3,5 мм) , такие же, как гнёзда для наушников. Гнездо линейного входа, как правило, помечено голубым цветом (согласно требованиям, появившимся в спецификации PC 99 Audio от Intel и Microsoft), а также значком со стрелкой, указывающей в центр кружка и/или надписью LINE IN (или L-IN):
По характеристикам нам подойдёт практически любая современная звуковая карта, даже интегрированная в материнскую плату (нам необходима частота дискретизации АЦП — 44100 кГц, разрядность АЦП — 16 бит).
3. Соединительный шнур. В случае использования советских магнитофонов и магнитофонных приставок распайка шнура должна быть следующей:
К линейному выходу магнитофона:
Штекер ОНЦ-ВГ-4-5/16-B (DIN 41524, DIN-5/180°):
2 — общий
3 — левый канал
5 — правый канал
К линейному входу звуковой карты:
Штекер TRS mini-jack (3,5 мм) :
1 — концевой контакт — левый канал
2 — кольцевой контакт — правый канал
3 — контакт на гильзе — общий
Если вы в качестве линейного выхода используете гнездо для наушников, то используйте кабель со штекерами описанного выше типа на обоих его концах.
4. Программа для захвата и обработки звука. Чтобы избежать использования нескольких программ и не заморачиваться со сложными аудиоредакторами, рекомендую использовать простую программу Spin It Again , специально созданную для любительской оцифровки аудиоматериала с кассет или грампластинок. Мне не платят за рекламу этой программы, но она реально удобная, почему бы и не похвалить.
Итак, в программе Spin It Again содержатся все необходимые инструменты для захвата звука, фильтрации шумов, нарезки треков, записи дисков и даже подробная помощь с фотографиями по подключению магнитофона или проигрывателя пластинок к компьютеру!
Подготовка к оцифровке
1. Соедините линейный выход магнитофона с линейным входом звуковой карты компьютера. Включите питание магнитофона, загрузите комипьютер.
2. Промотайте кассету до конца взад-вперёд, чтобы снять внутренние напряжения плёнки, ровнее её намотать и сдуть накопившуюся пыль.
3. Третий и следующий пункты можно сделать позже через программу оцифровки, но я делал их на этом этапе. Настройте в операционной системе программные регуляторы воспроизведения звука (регуляторы ЦАП) следующим образом. Откройте микшер громкости (через контекстное меню значка громкоговорителя в системном лотке, «там, где часы») и разрешите воспроизведение звука для прослушивания только с динамиков и с линейного входа. Остальное можно отключить, чтобы убрать лишние шумы.
Начинаем рассказывать, как работают привычные технологии: компьютерный звук, видео, MP3, вещание и стриминги, всевозможные алгоритмы и всё подобное.
👍 У этой статьи нет никакой практической ценности, она просто для удовольствия. Иногда можно себя побаловать 🙂
Немного школьной физики
Звук — это колебания воздуха. Как волны на воде, только в воздухе. Воздух давит нам на уши, а в ушах есть чувствительные части, которые тонко чувствуют колебания воздуха. Эти колебания люди воспринимают как звук. В открытом космосе звуков нет, потому что там нет воздуха. И людей.
Частота. Чем быстрее колебания, тем тоньше воспринимаемый нами звук. Человек воспринимает колебания от 20 раз в секунду до примерно 20 тысяч раз в секунду. По-другому это называется частотой колебаний: герцами. То есть диапазон, который мы слышим — от 20 герц до 20 килогерц.
Для сравнения, собаки слышат от 40 герц до 60 килогерц, поэтому собачий свисток не воспринимается людьми, но очень хорошо слышен собакам. Собачий свисток как раз звучит в диапазоне 23–54 КГц.
Амплитуда. Чем сильнее колебания — тем громче, и наоборот. Можно представить, что это высота волн на поверхности пруда: может быть мелкая рябь (тихий звук), а могут быть большие мощные волны.
График. Если мы произнесём фразу «Привет, это журнал „Код“», то с точки зрения волн он будет выглядеть как-то так (очень примерно):
Делим звук на отрезки
Давайте увеличим наш график и посмотрим, что происходит, например, за одну секунду (опять же, очень примерно и упрощённо!):
Упрощённо!
А теперь сделаем вот что: разделим секунду на 4 части, и для каждой найдём значение амплитуды:
Мы за секунду четыре раза измерили состояние волны. Это называется дискретизацией
Мы измерили значение амплитуды в каждой из четырёх точек, получили, условно говоря, четыре числа: +30, −50, −50 и −60. Теоретически, если взять ток и подать эти четыре напряжения на динамик, у нас получится воспроизвести тот же звук. Но есть несколько проблем:
- Из-за того, что мы замерили волну только в четырёх местах, мы пропустили целое колебание. Оно было настолько быстрым, что уместилось между нашими ключевыми точками.
- Опять же, из-за больших отрезков мы получим очень грубый звук по сравнению с оригиналом. Это то же самое, как взять картину с тысячей разных оттенков и нарисовать её тремя цветами, не смешивая их.
Дискретизация с частотой 4 (сколько значений мы измеряем в секунду) — это слишком мало для звука. Чтобы получить более или менее разборчивую речь, нужно секунду делить на 8 тысяч отрезков, а для музыки обычно хватает 41 тысячи.
Увеличим частоту дискретизации: нарежем звук на более мелкие кусочки за ту же единицу времени:
Теперь измерения будут намного точнее, а получившийся звук — естественнее
Переводим в цифру
После того как мы разбили звук на мелкие отрезки и измерили значение амплитуды для каждого из них, мы можем записать это в виде таблички:
Время | Амплитуда |
0.01 сек. | 5 |
0.02 сек. | 7 |
0,03 сек | 10 |
. | . |
1 сек | −21 |
Если мы весь звук разбиваем на одинаковые отрезки, то время можно не писать, потому что мы знаем, как оно меняется, достаточно записать в строчку только значения амплитуды:
Чтобы компьютер понимал эти числа, переведём эти числа в двоичную систему счисления. Для простоты будем считать, что одно число занимает ровно один байт памяти, но на самом деле чем больше байт выделяется на число, тем точнее будет измерение и качество звука. После перевода получим такое:
Последнее большое число получилось оттого, что нам нужно хранить и отрицательные значения, поэтому первая единица в байте означает, что это отрицательное число и его нужно считать немного иначе.
Вот эту последовательность компьютер уже может понять и воспроизвести в виде звука.
Как теперь воспроизвести звук
Чтобы что-то зазвучало, нужно сделать следующие шаги:
- Взять колонки или наушники — что угодно, что умеет «толкать воздух», то есть создавать акустические волны. В колонках за это отвечают динамики, к которым подключены специальные мягкие конусы, которые, собственно, и создают колебания воздуха. Та круглая ерунда в колонке — это и есть конус.
- Подать на эти колонки некий ток. От того, насколько мощный этот ток, конус будет двигаться по-разному.
- Чтобы получить этот меняющийся ток, нужен специальный чип под названием ЦАП — цифро-аналоговый преобразователь. Он получает на вход число, а на выходе дает ток. У всех ваших смартфонов и компьютеров есть такие ЦАПы.
- Процессор отправляет цифры из звукового файла в ЦАП.
- ЦАП получает числа и выдаёт меняющееся электричество по этим цифрам.
- Электричество попадает в колонку, передаётся на динамик.
- Динамик из-за электричества начинает двигать конус колонки.
- Конус начинает толкать воздух перед собой, создавая звуковые волны.
- Волны долетают до наших ушей, и мы воспринимаем их как звук.
Что дальше
У такого способа есть одна проблема: файл получается слишком большим, чтобы им было удобно пользоваться. Представьте: 44 тысячи чисел за одну секунду!
Чтобы уменьшить размер файла, придумали два решения: сжатие с потерями и без них. Каждое разберём отдельно, несмотря на то, что у них много общего.
Читайте также: