Какой формат файлов был специально разработан для сети интернет
Все существующие файлы условно можно разделить на две основные группы: системные и пользовательские. Очевидно, что системные файлы являются составляющими элементами самой системы, содержат в себе библиотеки, алгоритмы, команды, обеспечивающие работоспособность операционной системы. Пользовательские файлы являются виртуальным достоянием пользователя и для их чтения или редактирования требуются соответствующие программы.
Операционная система определяет тип файла по его расширению. Расширением называется последняя часть имени файла, которая следует после точки. Точек в названии может быть несколько, поэтому расширением считается часть имени файла, следующая за последней точкой в его названии. Пример: filename.txt
От расширения файла зависит — какой программой будет производиться чтение или редактирование данного файла.
Здесь возникает некоторая сложность в понимании для новичка. Дело в том, что операционная система, по умолчанию, настроена так, что известные системе расширения файлов не отображаются. В этом случае, пользователь видит только название самого файла. Видимо, создатели ОС посчитали, что пользователю нет смысла вдаваться в технические подробности.
Увы, без знания технических подробностей, полноценное взаимодействие с компьютером невозможно. По той причине, что расширения файлов остаются скрытыми, многие пользователи даже не подозревают о том, что в одной папке (каталоге) не может существовать двух файлов с одинаковыми названиями. Каждое название файла индивидуально для каждой конкретной папки.
Заблуждение возникает по той причине, что один файл может называться filename.txt, а второй файл может называться filename.jpg. Для системы, оба этих названия являются разными из-за разных расширений в имени, а пользователь, если расширения не отображаются, видит два одинаковых имени файла в одной папке и думает, что такое вполне возможно.
Рассмотрим типы пользовательских файлов. Условно их можно разделить на четыре основные группы:
1. Текстовый документ
Основным типом пользовательских файлов является текстовый документ. Данное утверждение не требует объемных доказательств, достаточно напомнить о том, что ни один сайт в интернете не обходится без текста. Кроме того, никакая электронная отчетность, ведение бухгалтерии, логистики, заключение договоров — тоже не могут обойтись без набора текстовых символов. Текст в компьютерном мире является, пусть не самым красочным, но самым основным источником информации. Графические изображения, как правило, являются дополнением к основному текстовому файлу, если содержат графики, чертежи, иллюстрации или фотографии.
Текстовый документ может содержать в себе обычный или форматированный текст. Если текстовый документ содержит неформатированный текст, такая запись, по сути, является единой строкой, содержащей определенный набор символов. Приложения, работающие с текстовыми документами, для удобства чтения автоматически располагают текст в окне в несколько строк, осуществляя перенос по словам.
Неформатированный текст содержит только основной набор символов, без указания типа и размера шрифта. Программы, работающие с текстом, отображают неформатированный текст размером и шрифтом выбранным пользователем. Таким образом, неформатированный текст, на двух разных компьютерах, может выглядеть совершенно по-разному, сохранится только основной логический смысл данного текста.
В операционной системе Windows, для чтения и создания простых текстовых файлов без форматирования, существует гениальное приложение "Блокнот". Данное приложение позволяет создавать простые текстовые файлы без форматирования. Кроме того, приложение позволяет открывать и редактировать некоторые системные файлы, содержащие техническую текстовую информацию. Также возможно создание или редактирование страниц интернета в формате HTM или HTML .
Форматированный текст имеет заданный и описанный в самом файле тип и размер шрифта, разбивку на абзацы, страницы, отступы текста от краев страницы, что подразумевает дальнейший вывод текста на печать с помощью принтера. Также форматированный текст может иметь таблицы, гипертекстовые ссылки, позволяющие осуществлять переход прямо из текстового документа на указанный ресурс в сети Интернет.
Наиболее известная программа, которая используется для работы с форматированным текстом, разработана компанией Microsoft и называется Word.
Некоторые пользователи полагают, что программа Word является неотъемлемой частью операционной системы Windows .
На самом деле, данное приложение является отдельным продуктом компании и устанавливается дополнительно. Приложение разработано специально для работников офиса, которым постоянно приходится работать с отчетами, сметами, счетами, договорами и другими аналогичными документами.
Текст без иллюстраций, фотографий или иконок выглядит слишком сухо и скучно. Иногда рисунки просто необходимы для наглядности. Все изображения, используемые в цифровой среде, можно разделить на две основных группы: растровая и векторная графика. Разница между этими двумя группами значительна и заключается в принципах построения, сохранения и чтения изображения.
Растровые изображения появились раньше и пока остаются наиболее популярными. Связано это с тем, что создавать и редактировать растровые изображения гораздо проще. На сегодняшний день существует множество различных программ, доступных широкому кругу пользователей, которые созданы для работы с растровой графикой.
Общий принцип растрового изображения заключается в том, что оно состоит из точек — пикселей. Такой принцип продиктован устройством самих мониторов, где также используются трехцветные пиксели. Каждый пиксель монитора состоит из трех ячеек, которым заданы базовые цвета: красный, зеленый и синий.
От яркости свечения каждой цветной ячейки, входящей в состав одного пикселя, зависит его общий суммарный цвет. Одинаковое свечение красного и зеленого порождают желтый цвет, одинаковое свечение зеленого и синего — дают голубой, а все три цвета в сумме дают белый. Разное процентное соотношение трёх базовых цветов — создает всю богатую палитру не только виртуального, но и окружающего мира.
Качество растрового изображения зависит от количества пикселей. Чем больше пикселей, тем выше может быть качество изображения. Пиксели в графическом рисунке образуют горизонтальные строки и вертикальные столбцы. Любое растровое изображение имеет четкий размер по ширине и высоте, который также указывается в пикселях.
Основной недостаток растрового изображения заключается в том, что изменение исходного размера изображения приводит к ухудшению качества. Связано это с тем, что при уменьшении изображения соседние пиксели суммируются и сливаются в один. При увеличении изображения добавляются новые пиксели, которым присваивается промежуточное значение соседних.
Если исходное изображение не уменьшать, а сразу увеличивать, то и в этом случае, за счет появления промежуточных пикселей теряется исходная четкость изображения. Наименьшие потери качества происходят при увеличении изображения на коэффициент кратный четырем: в два, в четыре, в восемь или шестнадцать раз.
В этих случаях, каждый пиксель просто увеличивается в четыре раза, либо в восемь, шестнадцать раз, но не появляются пиксели с промежуточными значениями.
Помимо растровой графики, существует векторная графика . Принцип построения векторного изображения заключается в том, что в исходном файле сохраняется сама форма каждого элемента изображения, в процентном соотношении от общей площади изображения. Подобное сохранение информации обеспечивает четкость изображения при любом изменении размера.
Векторное изображение, созданное на дисплее обычного компьютера, не потеряет своё качество даже в том случае, если его растянуть до размеров многоэтажного дома. Объем файла векторной графики зависит от количества элементов, используемых в рисунке.
Возможность воспроизведения звука на компьютере не является такой важной и необходимой составляющей, как текст или графическое изображение, но делает цифровой мир более совершенным и многогранным. Если же рассматривать техническую составляющую, компьютер, лишенный возможности работы со звуком, стал бы бесполезной игрушкой для композиторов, музыкантов, аранжировщиков и других специалистов, чья творческая или трудовая деятельность связана непосредственно со звуковыми файлами.
Для того чтобы понять структуру звукового файла, обратимся к базовым понятиям возникновения звука в природе. Известно, что любой звук это волна, которая порождается источником звука с помощью колебаний. От частоты колебаний источника звука зависит частота звуковой волны. Частота колебаний выражается в Герцах. Один Герц (Гц или Hz) означает одно колебание в секунду. Человеческое ухо способно слышать звуковые колебания в диапазоне от 20 колебаний в секунду (20 Гц) до 20 000 колебаний (20 кГц).
Некоторые источники утверждают, что человеческое ухо слышит не от 20, а от 30 Герц. Так или иначе, но всё, что ниже слышимого диапазона — принято считать инфразвуком, а диапазон свыше 20 000 Герц — принято считать ультразвуком.
Звуковой файл, по своей сути, это цифровая запись колебаний источника звука. При воспроизведении звукового файла, считывается запись колебаний, а сигнал, сгенерированный в соответствии с записью, подаётся на усилитель мощности, а уже затем воспроизводится динамиками звукового устройства.
Запись звука можно представить в виде графика. Для простоты восприятия, на графике изображена частота равная одному колебанию в секунду, что соответствует 1 Герц. Естественно, человеческое ухо не может услышать такую частоту, но на данном примере проще объяснить общий принцип звучания частот.
Когда мы слышим музыку, мы можем различать звучание множества различных музыкальных инструментов. Все они звучат на разных частотах, но запись подобного звучания выглядит в виде всего одной звуковой дорожки. Возникает вполне справедливый вопрос: Каким образом одна звуковая дорожка может содержать запись нескольких музыкальных инструментов?
Чтобы ответить на данный вопрос, воспользуемся двумя графиками. На одном графике изображена частота 1 Герц, на втором графике изображена частота 10 Герц. Как будет выглядеть график, если две этих частоты суммировать в один график?
Примитивная математика здесь бессильна и 1 плюс 10 Герц не будет равняться 11 Герцам. Полученный график будет сочетать в себе обе частоты, которые, при воспроизведении будут слышаться по отдельности. То есть, не сольются в единый звук. Однако, следует заметить, что суммируется громкость частот.
Подобным образом происходит наложение и слияние многих частот. В конце-концов, человеческое ухо — также имеет всего одну мембрану (барабанную перепонку), которая воспринимает всё многообразие звуков реального мира.
Видеофайлы являются наиболее "тяжелыми" по своему объему и наиболее сложными для воспроизведения на компьютере. Впрочем, для любого компьютера нет ничего страшнее, чем качественная видеоигра с трехмерной графикой и массой реалистичных эффектов: дым, туман, падающие тени от объектов и многие другие эффекты, которые создают максимальную нагрузку для видеокарты, заставляя её просчитывать весь виртуальный мир трёхмерной сцены.
Игровой режим с 3D-графикой наиболее опасен для ноутбуков потому, что система охлаждения обслуживает одновременно главный процессор и видеочип. Однако, скорость вращения кулера зависит от температуры главного процессора. Видеоигра может давать незначительную нагрузку для главного процессора при максимальной нагрузке видеочипа. В этом случае, кулер работает на пониженных оборотах, видеочип нагревается сильнее, чем главный процессор, но не получает достойного охлаждения, из-за чего значительно сокращается срок службы видеочипа.
Если учитывать нагрузку, которую создаёт трехмерная игра, то воспроизведение видеофайлов можно считать пустяком, который создаёт нагрузку процессора в пределах от 25-30% до 67-75%. Конечно, процент загрузки зависит ещё от мощности самого процессора. Чем мощнее процессор, тем проще ему работать. Для видеокарты-же нагрузка остается минимальной, поскольку, вся работа заключается в просчете плоского, двухмерного изображения, имеющего лишь ширину и высоту кадра.
Как говорилось ранее, видеофайл представляет собой серию последовательных, графических рисунков, сопровождающихся аудиодорожкой. Объем видеофайла напрямую зависит от размера и количества кадров. Правда, помимо этих параметров, существуют и такие, как интерлейсинг, битрейт, сжатие.
Известно, что человеческий глаз воспринимает движение на экране в том случае, если скорость смены кадров не ниже 24 кадров в секунду. Однако, некоторые цифровые форматы имеют настройку от шести с половиной кадров в секунду и выше. Как такое возможно?
Всё дело в том, что в подобных случаях смена кадра происходит так же быстро и резко, но время показа одного кадра на экране значительно увеличено. Конечно, чем больше кадров в секунду мы видим, тем плавнее воспринимается движение на экране.
Есть ещё такое заблуждение, что 24 кадра в секунду это максимум для человеческого глаза, а повышать количество кадров не имеет смысла. На самом деле, видео, воспроизводимое со скоростью 30 кадров в секунду, воспринимается глазом более плавно и кажется более натуральным, а 60 кадров в секунду создаёт ещё более плавный и реалистичный эффект движения.
Заключение
По своей сути, любой файл содержит запись, состоящую из набора символов. Разница лишь в том, что значения символов, в разных типах файлов, имеют разное значение. Текстовые файлы появились одними из первых, ещё на заре развития компьютерной техники. Они могут иметь простое или сложное форматирование, подразумевающее отступы текста от краёв, разбивку текста на отдельные страницы, если подразумевается вывод документа на печать.
Вторым по значению можно смело назвать графический рисунок. К этой категории относится любое растровое изображение, будь то фотография, сделанная с помощью цифровой камеры или рисунок, созданный от руки. Для компьютера не имеет значения, каким образом был создан графический рисунок, для него это просто файл, в котором описано количество точек по вертикали и горизонтали, а также указан цвет каждой точки. Открывая изображение для просмотра, компьютер должен прочитать графический файл от начала до конца и затем, в соответствии с его содержимым, отобразить область рисунка указанными цветами. Пользователь видит картинку или фотографию.
Если графические файлы содержат информацию о количестве и цветах точек, из которых состоит рисунок, то аудиофайл содержит в себе запись частоты колебаний мембраны динамиков или наушников. Компьютер, считывая информацию аудиофайла, генерирует необходимые частоты и передает их на предварительный усилитель громкости, с которого сигнал поступает на усилитель мощности и далее начинает звучать в наушниках или динамиках.
Самым "тяжелым" и сложным для обработки и чтения является видеофайл, который состоит из двух частей: видеоряд и звуковая дорожка. По своей сути, видеофайл это объединение графического рисунка с аудиофайлом, с той разницей, что видеофайл подразумевает не один рисунок, а целую серию графических рисунков, которые сменяются со скоростью 12.5, 15, 25, 29.9 или 30 кадров в секунду. Скорость смены кадров также указана в самом видеофайле. Следует учитывать, что воспроизведение видеоряда должно ещё сопровождаться синхронным воспроизведением аудиодорожки. Из-за такой сложности, на слабых компьютерах нередко возникает рассинхронизация потоков, когда видеоряд отстает от аудиодорожки, либо наоборот: опережает её.
Возможности современного компьютера позволяют человеку работать с информацией, которая воспринимается не только зрением, но и слухом. Таким образом, в электронном виде могут быть представлены такие виды информации, как текстовая, графическая, звуковая.
В зависимости от того, изменяется ли представление информации во времени или нет, можно выделить следующие типы электронной информации: статическая (неизменная), динамическая (изменяющаяся с течением времени), интерактивная (изменяющаяся при взаимодействии).
Когда информация одновременно представлена в нескольких видах, то её называют мультимедийной (от англ. multimedia –многие средства). В качестве примера мультимедийной информации можно привести фрагменты кино - и видеофильмов, в которых динамическое изображение сопровождается звуком.
Независимо от вида и типа информация в компьютере хранится как последовательность цифр. Для того чтобы информационные ресурсы, созданные на одном компьютере, могли быть воспроизведены на другом, процедура преобразования информации в электронный вид, или, как говорят, процедура кодирования, должна осуществляться согласно некоторому общепринятому набору правил. Такой формализованный и документированный набор правил называется форматом (от англ. format – способ организации). Рассмотрим форматы и программы, которые используются для создания интернет-ресурсов.
Текстовые форматы
Текстовые форматы позволяют представить в электронном виде алфавитно - цифровую информацию. Соответствие между символами и кодами задаётся кодовой таблицей или кодировкой (от англ. encoding – кодирование, шифрование).
Для размещения текстовой информации в интернете стремились выработать такой формат, который позволял бы осуществлять логическое структурирование текста, при этом отличался бы простотой кода и небольшим объемом файлов для быстрой передачи по сети. Этим требованиям не удовлетворяет ни простейший текстовый формат, ни форматы специализированных текстовых редакторов. Поэтому для оформления документов, предназначенных для размещения в интернете, был разработан специальный язык, который называется HTM L.
Графические форматы
При представлении графической информации в электронном виде используют два принципиально различных подхода: растровый и векторный.
Основой растрового представления графики является пиксель (точка) с ука занием ее цвета. Растровое представление обычно используют для изображений фотографиче ского типа с большим количеством деталей или оттенков. Распространены форматы TI F , GIF , JPG , PNG , BMP , PCX и др. При работе с форматом JPEG следует помнить, что при каждом новом сохранении файла в данном формате часть информации будет утеряна, даже если потери качества визуально незаметны. Но, сохранив один файл несколько раз даже без внесения в него изменений, можно существенно ухудшить его качество. Поэтому для хранения изображений при создании и в процессе обработки рекомендуется использовать растровые форматы (например, PSD, BMPили TIFF), а в формате JPEG сохранить “чистовик ” (то есть окончательный вариант иллюстрации).
При подготовке изображений для интернета в растровых форматах используют GIF , JPG , PNG .
Формат GIF
Поддерживает не более 256 цветов, поэтому, если у вас есть красивая фотография с плавными переходами и едва уловимыми оттенками цвета, то после преобразования ее в формат GIF все будет гораздо хуже — оттенки перестанут быть неуловимыми, и вся фотография приобретет неестественный, нереалистичный вид.
GIF -файлы практически не сжимаются архиваторами типа PKZIP , т. е. уменьшить размер GIF -файла архивацией вам не удастся.
Поддерживает чересстрочную развертку для того, чтобы еще до полной загрузки изображения уже можно было приблизительно понять суть рисунка и решить, продолжать ли его скачивание.
Поддерживает прозрачность фона изображения.
Имеет возможность сохранения в одном файле нескольких изображе ний, что находит свое применение при изготовлении анимированных gif -изображений .
Применение формата GIF : текст, логотипы, иллюстрации с четкими краями, анимированны е рисунки, изображения с прозрачными участками.
Формат JPEG
Позволяет сохранять полноцветные изображения с количеством 16,7 млн. цветов.
Использует сжатие с потерями информации, за счет чего достигается большая степень сжатия файлов, т. е. размер файла сильно умень шается без значительной потери качества изображения, что, естественно, влияет на скорость загрузки файла (изображения) в Интер нете.
Поддерживает прогрессивную развертку , т.е. изображение появляется вначале с плохим качеством, и в процессе загрузки постепенно улуч шается, чтобы до полной загрузки изображения уже можно было приблизительно понять суть рисунка и решить, продолжать ли скачи вание.
Применение формата JPEG : лучше всего JPEG подходит для хранения фото графий и других изображений, содержащих большое количество цветов, плавные цветовые переходы и мелкие разноцветные детали.
Формат PNG (от англ. Portable Network Format – переносимый сетевой формат)..
Применение формата PNG . Формат PNG используется, когда необходимо разместить в интернете полноцветные изображения, а потеря информации недопустима (например, медицинские изображения или фотографии, полученные в процессе различных научных исследований
Векторное представление заключается в описании элементов изображения математическими кривыми с указанием их цветов и заполненности, т.е. изображение представляется в виде набора линий и фигур на плоскости или геометрических объектов в трёхмерном пространстве. Увеличение или уменьшение размеров объектов производится увеличением или уменьшением соответствующих коэффици ентов в математических формулах, при этом объем файла не изменяется.
Векторные форматы используются для хранения чертежей, диаграмм, графиков и других изображений, которые можно представить в виде совокупности простых геометрических примитивов.
Преимуществами векторных форматов являются небольшой размер, простота модификации и независимость от параметров устройства вывода (монитора, принтера или любого другого).
Программы Adobe Illustrator и Corel Draw уже достаточно давно и хорошо известны как профессиональные векторные редакторы для подготовки изображений к высококачественной печати.
Существуют программные продукты, которые специально предназначены для работы в режиме подготовки векторных изображений и сохранения в растровом формате. Среди таких программ можно выделить Macromedia Firework s. Эта программа позволяет создавать векторные иллюстрации любой сложности. Особенностью Fireworks является ещё и то, что её интерфейс очень похож на интерфейс растрового редактора Photosho p.
Для начинающих можно порекомендовать наиболее простой, но достаточно мощный графический редактор Xara X. Он, как и другие программы фирмы Xar a, специально предназначен для подготовки иллюстраций, элементов дизайна и других графических элементов при разработке интернет-ресурсов. Этот графический редактор предлагает простые и быстрые графические инструменты. Xara X позволяет сохранить компактные и хорошо оптимизированные графические изображения не только в векторном, но и в любых растровых форматах.
Один из векторных форматов следует выделить особо. Это формат VRML (от англ. Virtual Reality Modeling Language – язык моделирования виртуальной реальности). VRML является средством описания сцен в трёхмерном виртуальном пространстве. Хотя набор геометрических примитивов, с помощью которых описывается сцена, ограничен, VRML позволяет добиваться высокой реалистичности изображения. Кроме координат расположения и размеров при описании геометрических примитивов задаётся их цвет, текстура и некоторые оптические свойства. В произвольных точках сцены могут быть размещены источники освещения различного типа. Трёхмерная сцена, созданная с помощью VRML может быть интерактивной: с помощью специального программного обеспечения можно не только отобразить трёхмерные объекты, но менять точку наблюдения, свободно перемещаясь в пространстве. VRML может быть очень полезен при реализации виртуальных экскурсий и демонстраций.
Звуковые форматы
Для хранения и обмена звуковой информацией разработано большое количество форматов.(например: аудиоформаты, потоковые форматы) .
Аудиоформаты
Звуковой формат AUDIO имеет высокое качество звучания, этот формат используется для проигрывания звука на бытовых лазерных проигрывателях, а также на ПК, имеющих CD-ROM. Имеет достаточно большой объём: на один лазерный диск помещается 74 минуты звучания. Музыкальный трек формата AUDIO не имеет названия. Звук в формате AUDIO можно записать при помощи специальных программ на жёсткий диск компьютера, но при этом компьютер преобразует формат AUDIO в формат WAV.
Стандартным форматом для хранения звуковой информации в операционной системе Microsoft Windows является формат WAV (от англ. WAVe – волна). Никакого сжатия данных этот формат не предусматривает, чем объясняется достаточно большой объём файлов. Формат звука WAV - это цифровой формат звука, по своему качеству примерно одинаковый с форматом AUDIO, но объем измеряется не в минутах, а в байтах, мегабайтах и т.д. Данный формат может храниться как на жёстком диске ПК так и на компакт-диске. Формат WAV может иметь своё индивидуальное название на любом носителе (каждый файл вы можете назвать, как вам захочется, и это название будет сохраняться при копировании или переносе). Не нуждается в специальных программах для копирования, скажем, с лазерного диска на жёсткий диск, что делает удобным перемещение звуковых файлов с ПК на ПК. Но звук в формате WAV не может быть воспроизведён на простом бытовом лазерном проигрывателе, этот формат может быть обработан только программами компьютера или CD-плеерами нового поколения.
Для хранения и обмена звуковой информацией широкое распространение получил формат MP3 (аудиоформат из семейства MPEG), который использует сложные методы сжатия звуковой информации. Эти методы основаны на особенностях восприятия звука человеком. Например, известно, что человек не способен воспринимать тихие звуки на фоне громких: информацию о таких звуках можно в процессе кодирования исключить.
При помощи соответствующих программ можно "сжать" звуковые файлы формата WAV в формат MP3. Это значит, что при небольшой потере качества объем уменьшится в 5-10 раз.
Формат AAC (Advanced Audio Coding) представляет еще один из числа появившихся сравнительно недавно форматов кодирования звуковой информации, в которой осуществляется сжатие с потерями. На сегодняшний момент AAC представляет собой лучшую систему сжатия высококачественного звука.
Формат MIDI ( от англ . Musical Instrument Digital Interface – цифровой интерфейс музыкальных инструментов) представляет собой язык описания команд для генерации звуков. Файл в формате MIDI содержит команды для звуковой карты, которая как по нотной записи генерирует звуки. Файл MIDI исполняется для вас именно в данный момент и именно теми инструментами, которыми снабжён ваш ПК.
Главным недостатком формата MIDI является то, что в нём не может быть закодирован живой голос. Преимуществом же данного формата по сравнению с другими является малый размер файлов.
Музыкальные файлы формата KARAOKE обладают теми же свойствами, что и файлы формата MIDI: имеют очень маленький объем, позволяют изменять темп, тональность. Дополнительно в формате KARAOKE имеется текст песни, который может отображаться на экране монитора.
Потоковый формат
Для прослушивания звуковых фрагментов, размещённых в интернете, необходимо дождаться, когда файл со звуковой информацией будет полностью скопирован на наш компьютер. При организации прямых трансляций или сетевой радиостанции необходим другой способ кодирования звуковой информации – потоковый. Самый известный потоковый звуковой формат – это Real Audi o. В потоковом формате звуковая информация закодирована так, что её воспроизведение начинается незамедлительно после получения первых порций и продолжается по мере поступления данных.
Примечание:
Аудиокодек (англ. Audio codec; аудио кодер/декодер) — компьютерная программа или аппаратное средство, предназначенное для кодирования или декодирования аудиоданных.
Задачей аудиокодека как компрессора является в предоставлении аудио-сигнала с максимально возможным качеством/точностью и минимально возможным размером. Большинство аудиокодеков осуществлены как программные библиотеки, которые взаимодействуют с одним или несколькими аудио-плеерами, такими как QuickTime Player, XMMS, Winamp, VLC media player, MPlayer или Windows Media Player.
Аудиокодек на аппаратном уровне обозначает отдельный прибор (например, звуковую карту), который кодирует и декодирует аналоговый звуковой сигнал в цифровой сигнал и наоборот при помощи аналогово-цифрового и цифро-аналогового преобразователей.
Мультимедийные форматы
Самыми распространёнными мультимедийными форматами на сегодняшний день являются видеоформаты. Главная проблема, которую приходится решать при разработке таких форматов – это сжатие больших объёмов звуковой и графической динамической информации. Наиболее распространенными видеоформатами являются AVI, MOV и MPEG.
Формат AVI (от англ. Audio/Video Interleaved – чередующиеся звук и видео) является стандартным форматом операционной системы Microsoft Window s. В формате AVI звуковая информация чередуется с графическими кадрами, что теоретически позволяет добиться плавного синхронного воспроизведения. Главный недостаток формата AVI в том, что файлы, в которых хранится информация в этом формате, имеют чрезвычайно большой размер.
Формат MOV (от англ. MOVie – кино), хотя и является стандартным мультимедийным форматом для компьютеров Apple Macintos h, может быть воспроизведён на любом другом аппаратном обеспечении. Формат MOV достаточно популярен благодаря высокой степени сжатия информации без потерь, а, следовательно, меньшему размеру файлов, быстрой загрузке по сети и высокому качеству при воспроизведении.
Форматы из семейства MPEG (от англ. Moving Picture Experts Group – группа экспертов по кинематографии) используют сложные алгоритмы сжатия информации, что позволяет при достаточно хорошем качестве воспроизведения уменьшить размер по сравнению с файлами в формате AVI почти в сто раз. Как мы уже отмечали, в формате MPEG добиваются исключительно высокой степени сжатия за счёт некоторых потерь, которые практически незаметны для человеческого слуха и зрения.
Для организации прямых трансляций видеоинформации также существует специальный потоковый формат – Real Medi a. С помощью этого формата в интернете транслируются передачи многих телевизионных каналов, организуются специальные трансляции во время важных событий и мероприятий.
В интернете широко используются мультимедийные иллюстрации, которые создаются с использованием программы Macromedia (Adobe) Flas h. Они содержат анимационные интерактивные изображения и синхронизированные с ними аудиоклипы. Благодаря тому, что для представления графической информации используется векторный подход, файлы в формате Flash очень компактны, а изображение при воспроизведении имеет высокое качество. Flash предоставляет удобные средства для определения интерактивных областей и реакции на различные события, средства для организации движения графических примитивов, для вставки и синхронизации звуковых фрагментов, а также обладает возможностями для рисования. Таким образом, Flash является не просто векторным редактором, а представляет собой программу, предназначенную для формирования мультимедийных иллюстраций. Flash-технологии могут использоваться для создания изображений, иллюстрирующих динамические, изменяющиеся во времени процессы, а также для создания интерактивных модулей (например, игры, тестовые задания, навигационные панели).
Зачем нужны разные форматы файлов
Серьезное узкое место в производительности приложений с поддержкой HDFS, таких как MapReduce и Spark — время поиска, чтения, а также записи данных. Эти проблемы усугубляются трудностями в управлении большими наборами данных, если у нас не фиксированная, а эволюционирующая схема, или присутствуют некие ограничения на хранение.
Обработка больших данных увеличивает нагрузку на подсистему хранения — Hadoop хранит данные избыточно для достижения отказоустойчивости. Кроме дисков, нагружаются процессор, сеть, система ввода-вывода и так далее. По мере роста объема данных увеличивается и стоимость их обработки и хранения.
Различные форматы файлов в Hadoop придуманы для решения именно этих проблем. Выбор подходящего формата файла может дать некоторые существенные преимущества:
- Более быстрое время чтения.
- Более быстрое время записи.
- Разделяемые файлы.
- Поддержка эволюции схем.
- Расширенная поддержка сжатия.
Формат файлов Avro
Для сериализации данных широко используют Avro — это основанный на строках, то есть строковый, формат хранения данных в Hadoop. Он хранит схему в формате JSON, облегчая ее чтение и интерпретацию любой программой. Сами данные лежат в двоичном формате, компактно и эффективно.
Ключевой особенностью Avro является надежная поддержка схем данных, которые изменяются с течением времени, то есть эволюционируют. Avro понимает изменения схемы — удаление, добавление или изменение полей.
Avro поддерживает разнообразные структуры данных. Например, можно создать запись, которая содержит массив, перечислимый тип и подзапись.
Этот формат идеально подходит для записи в посадочную (переходную) зону озера данных (озеро данных, или data lake — коллекция инстансов для хранения различных типов данных в дополнение непосредственно к источникам данных).
Так вот, для записи в посадочную зону озера данных такой формат лучше всего подходит по следующим причинам:
- Данные из этой зоны обычно считываются целиком для дальнейшей обработки нижестоящими системами — и формат на основе строк в этом случае более эффективен.
- Нижестоящие системы могут легко извлекать таблицы схем из файлов — не нужно хранить схемы отдельно во внешнем мета-хранилище.
- Любое изменение исходной схемы легко обрабатывается (эволюция схемы).
Формат файлов Parquet
Parquet — опенсорсный формат файлов для Hadoop, который хранит вложенные структуры данных в плоском столбчатом формате.
По сравнению с традиционным строчным подходом, Parquet более эффективен с точки зрения хранения и производительности.
Это особенно полезно для запросов, которые считывают определенные столбцы из широкой (со многими столбцами) таблицы. Благодаря формату файлов читаются только необходимые столбцы, так что ввод-вывод сводится к минимуму.
Небольшое отступление-пояснение: чтобы лучше понять формат файла Parquet в Hadoop, давайте посмотрим, что такое основанный на столбцах — то есть столбчатый — формат. В таком формате вместе хранятся однотипные значения каждого столбца.
Например, запись включает поля ID, Name и Department. В этом случае все значения столбца ID будут храниться вместе, как и значения столбца Name и так далее. Таблица получит примерно такой вид:
ID | Name | Department |
1 | emp1 | d1 |
2 | emp2 | d2 |
3 | emp3 | d3 |
В строковом формате данные сохранятся следующим образом:
В столбчатом формате файлов те же данные сохранятся так:
Столбчатый формат более эффективен, когда вам нужно запросить из таблицы несколько столбцов. Он прочитает только необходимые столбцы, потому что они находятся по соседству. Таким образом, операции ввода-вывода сводятся к минимуму.
Например, вам нужен только столбец NAME. В строковом формате каждую запись в наборе данных нужно загрузить, разобрать по полям, а затем извлечь данные NAME. Столбчатый формат позволяет перейти непосредственно к столбцу Name, так как все значения для этого столбца хранятся вместе. Не придется сканировать всю запись.
Таким образом, столбчатый формат повышает производительность запросов, поскольку для перехода к требуемым столбцам требуется меньше времени поиска и сокращается количество операций ввода-вывода, ведь происходит чтение только нужных столбцов.
Одна из уникальных особенностей Parquet заключается в том, что в таком формате он может хранить данные с вложенными структурами. Это означает, что в файле Parquet даже вложенные поля можно читать по отдельности без необходимости читать все поля во вложенной структуре. Для хранения вложенных структур Parquet использует алгоритм измельчения и сборки (shredding and assembly).
Чтобы понять формат файла Parquet в Hadoop, необходимо знать следующие термины:
Здесь заголовок просто содержит волшебное число PAR1 (4 байта), которое идентифицирует файл как файл формата Parquet.
В футере записано следующее:
- Метаданные файла, которые содержат стартовые координаты метаданных каждого столбца. При чтении нужно сначала прочитать метаданные файла, чтобы найти все интересующие фрагменты столбцов. Затем фрагменты столбцов следует читать последовательно. Еще метаданные включают версию формата, схему и любые дополнительные пары ключ-значение.
- Длина метаданных (4 байта).
- Волшебное число PAR1 (4 байта).
Формат файлов ORC
Оптимизированный строково-столбчатый формат файлов (Optimized Row Columnar, ORC) предлагает очень эффективный способ хранения данных и был разработан, чтобы преодолеть ограничения других форматов. Хранит данные в идеально компактном виде, позволяя пропускать ненужные детали — при этом не требует построения больших, сложных или обслуживаемых вручную индексов.
Преимущества формата ORC:
- Один файл на выходе каждой задачи, что уменьшает нагрузку на NameNode (узел имен).
- Поддержка типов данных Hive, включая DateTime, десятичные и сложные типы данных (struct, list, map и union).
- Одновременное считывание одного и того же файла разными процессами RecordReader.
- Возможность разделения файлов без сканирования на наличие маркеров.
- Оценка максимально возможного выделения памяти кучи на процессы чтения/записи по информации в футере файла.
- Метаданные сохраняются в бинарном формате сериализации Protocol Buffers, который позволяет добавлять и удалять поля.
ORC хранит коллекции строк в одном файле, а внутри коллекции строчные данные хранятся в столбчатом формате.
Файл ORC хранит группы строк, которые называются полосами (stripes) и вспомогательную информацию в футере файла. Postscript в конце файла содержит параметры сжатия и размер сжатого футера.
По умолчанию размер полосы составляет 250 МБ. За счет полос такого большого размера чтение из HDFS выполняется более эффективно: большими непрерывными блоками.
В футере файла записан список полос в файле, количество строк на полосу и тип данных каждого столбца. Там же записано результирующее значение count, min, max и sum по каждому столбцу.
Футер полосы содержит каталог местоположений потока.
Строчные данные используются при сканировании таблиц.
Индексные данные включают минимальные и максимальные значения для каждого столбца и позиции строк в каждом столбце. Индексы ORC используются только для выбора полос и групп строк, а не для ответа на запросы.
Еще одна неточность часто связано с тем, что обычно по контексту понятно, что обсуждается, и слово «протокол» воспринимается как будто он один. На самом деле точнее представлять себе несколько протоколов, работающих одновременно каждый на своем уровне. Нижние протоколы обеспечивают физическую работу оборудования, протоколы среднего уровня – передачу данных по узлам сети, верхние – собственно, работу того или иного конечного приложения.
Из сказанного вытекает и ответ на вопрос кому и зачем нужно знание протоколов. Протоколы нижнего уровня требуются при разработке оборудования. При разработке и организации сети, способной подсоединится к интернету, потребуется знание протоколов TCP/IP. Наконец, знание протоколов верхнего уровня понадобится разработчикам программного обеспечения, связанного с работой в интернете.
Базовые протоколы интернета
В наше время говоря о сети, люди обычно подразумевают интернет. Между тем, интернет не отдельная сеть, это способ передачи данных от разных сетей. Сами сети могут быть построены на разных основах и, соответственно, они имеют свои внутренние протоколы для обеспечения своей работы. Интернет – своего рода логическая надстройка над сетями, координирующая их работу при передаче данных из одной сети в другую.
Протокол TCP/IP (transmission control protocol / internet protocol) – основной протокол интернета – разбивает данные на маленькие пакеты, выбирает путь следования с учетом загрузки промежуточных узлов, проверяет целостность данных в месте доставки. Большинство протоколов верхнего уровня построены на базе TCP/IP. Однако, он не единственный.
Протокол UDP (user datagram protocol) занимается тем же, но пересылает разрозненные пакеты данных по адресу, не заботясь о том, дошли они или нет. Тем не менее, во многих практических случаях он используется достаточно широко. Протоколы верхних уровней для работы в интернете строятся на базе одного из этих двух протоколов.
Протокол FTP
Два почтовых протокола
Новые протоколы
Любой протокол решает конкретную задачу с учетом имеющихся технических возможностей. Поэтому новые протоколы продолжают появляться и сейчас. Никто в интернете не запрещает разработать собственный протокол. Некоторые программы создают для своей работы собственные форматы передачи данных; в случае коммерческого успеха, с распространением этих программ, их протоколы становятся общепринятыми. В качестве примера можно привести протокол SOP (streaming over peer), для программы sopcast.
В общем случае можно сказать так. Если вы пишете программное обеспечение, которое передает какие-то данные, то для передачи, естественно, нужно использовать какой-то формат. Если же где-то на промежуточном этапе осуществляется внешний контроль за целостностью данных и механизмом передачи, то это уже можно назвать протоколом.
Читайте также: