Как определить размер файла электронного издания
Содержание
Основные единицы хранения информации
Байт – это очень маленькое количество информации. На практике чаще встречаются более крупные единицы, а именно:
- килобайт (равен 1024 байтам, сокращенно – kb или КБ);
- мегабайт (равен 1024 килобайтам, сокращенно – mb или МБ);
- гигабайт (равен 1024 мегабайтам, сокращенно – gb или ГБ);
- терабайт (равен 1024 гигабайтам, сокращенно – tb или ТБ).
Есть и еще более крупные единицы, но они в повседневной жизни встречаются редко. Все запоминающие устройства (постоянные запоминающие устройства компьютеров, портативные носители типа флешек) имеют определенное пространство. Оно не безгранично и также измеряется в байтах. Например, если говорят, что размер носителя составляет 4 gb, это значит, что на нем одновременно могут находиться файлы и папки, суммарный размер которых не превышает 4 gb.
Таблица преобразования
При записи файла на диск может потребляться больше дискового пространства чем необходимо файлу. Это связано с тем, что файловая система округляет размер файла до целого числа секторов резервируя тем самым под файл все оставшееся неиспользуемое место в секторе. Сектором является наименьший объем дискового пространства, адресуемого файловой системой. Размер секторов варьируется от нескольких сотен до нескольких тысяч байт в различных файловых системах. Меньший размер секторов позволяет более эффективно использовать дисковое пространство, но снижает производительность файловой системы.
Система управления файлами является основной в абсолютном большинстве современных операционных систем. Например, операционные системы UNIX не могут функционировать без файловой системы. Все современные операционные системы используют файлы и соответствующее программное обеспечение для работы с ними. Дело в том что, во-первых, через файловую систему связываются по данным многие системные обрабатывающие программы. Во-вторых, с помощью этой системы решаются проблемы централизованного распределения дискового пространства и управления данными. Наконец, пользователи получают наиболее простые способы доступа к своим данным, которые они размещают на устройствах внешней памяти.
Существует большое количество файловых систем, созданных для разных устройств внешней памяти и разных операционных систем. В них используются, соответственно, разные принципы размещения данных на носителе. Наиболее распространенными файловыми системами, с которыми можно столкнуться при работе на персональных компьютера, являются системы FAT, FAT32 и NTFS. Знание основных принципов их построения необходимо не только специалисту в области вычислительной техники, но и обычному пользователю. [Источник 1]
Под файлом понимается именованный набор данных организованных в виде совокупностей записей одинаковых структуры. Для управления этими данными создаются соответствующие файловые системы. Файловая система предоставляет возможность иметь дело с логическим уровнем структуры данных и операций, выполняемых над данными в процессе их обработки. Именно Файловая система определяет способ организации данных на диске или на каком-либо ином носителе. Специальное системное программное обеспечение, реализующее работу с файлами по принятым спецификациям файловой системы, часто называют системой управления файлами. Именно система управления данными отвечает за создание, уничтожение, организацию, чтение, запись, модификацию и перемещение файловой информации, а также за управление доступом к файлам и управление к файлам.
Как определить размер файла
Чтобы узнать размер файла необходимо щелкнуть по нему правой кнопкой мышки и в открывшемся контекстном меню выбрать пункт "Свойства". Откроется окно "Свойства…", в котором и будет отображена необходимая информация. В поле "Размер" будет отображаться размер этого файла, в соответствии с рисунком 1.
Рисунок 1 - "Свойства"
Как определить суммарный размер нескольких файлов
Чтобы определить суммарный размер нескольких файлов, можно указанным выше способом узнать размер каждого из них и затем сложить все полученные числа. В то же время, такой способ будет связан с большими затратами времени, особенно, если речь идет о значительном числе файлов.
Операционная система Windows позволяет решать подобные задачи значительно проще. Но для этого необходимо овладеть навыком выделения нескольких файлов и папок. Самый простой способ выделить какой-нибудь файл – один раз щелкнуть по нему левой кнопкой мышки.
Откройте любой имеющийся на компьютере файл и выделите его указанным способом. После щелчка мышки вокруг значка выделенного файла появится специальная рамка. Если щелкнуть по другому файлу – рамка выделения перейдет на него, а выделение с предыдущего файла автоматически снимется.
Чтобы выделение с предыдущего файла не снималось, на клавиатуре нужно постоянно удерживать нажатой кнопку "Ctrl". То есть, чтобы выделить несколько файлов, необходимо нажать на клавиатуре кнопку "Ctrl", и, не отпуская ее, поочередно один раз щелкнуть левой кнопкой мышки по каждому из них. Кнопку "Ctrl" следует отпускать, когда все необходимые файлы будут выделены.
Для того, чтобы быстро узнать суммарный размер нескольких файлов, необходимо выделить их указанным выше способом, после чего щелкнуть по любому из них правой кнопкой мышки и в открывшемся контекстном меню выбрать пункт "свойства". Откроется окно, в котором будет отображаться уже обобщенная информация.
Как изменить размер файла
Для того, чтобы уменьшить занимаемое место на компьютере или чтобы было проще переслать или залить файл, нам необходимо уменьшить размер файла до разумных пределов. Также это часто нужно сделать для того, чтобы вписаться в рамки ограничений по закачке на сайт либо на файлообменники и для того, чтобы оптимизировать сайт, обеспечив ему быструю скорость загрузки на компьютерах с низкой скоростью подключения к сети интернет.
Для того, чтобы уменьшить размер большинства файлов, можно использовать компрессию файлов через изменение их качества. Изменение качества должно оставаться в разумных пределах, но при этом оно должно быть заметно. У каждого типа файлов свой показатель, на котором можно сыграть: у аудиофайлов это битрейт, у фотографии – площадь картинки, а в случае с видеофайлами это битрейт аудиопотока и количество кадров, воспроизводимых в секунду.
Следующим вариантом, к которому можно прибегнуть для уменьшения размера файла, является изменение расширения файла через редактор. В этом случае, компрессия происходит автоматически, как, к примеру, в случае с фото. В случае с видео и аудио файлами, необходимо также задать настройки компрессии определенного формата, указав каждый из параметров вручную для максимального приближения полученного результата к желаемому. Файлы, которые не поддаются компрессии через смену расширения и настройки, могут быть заархивированы, в этом случае, их размер может уменьшиться на часть от двух до девяносто семи процентов. В этом случае, перед тем как открыть файл, необходимо его заархивировать. [Источник 2]
В предыдущем параграфе уже упоминались форматы электронных изданий. Здесь мы поговорим об этом подробнее, впрочем, позднее мы будем еще не раз обращаться к этому вопросу. Если в обычной книге формат характеризует ее ширину и высоту, то в электронном издании формат описывает то, каким образом в файле представлена информация. В настоящее время для современных и качественных электронных изданий используются два основных формата, а именно:
PDF (Portable Document Format), разработанный фирмой Adobe и представляющий развитие и совершенствование известного издательского формата описания страниц документов Post Script,
HTML (Hyper Text Markup Language) - гипертекстовый язык разметки страниц с помощью которого создано большое количество электронных документов, в том числе - абсолютное большинство изданий, циркулирующих в среде Интернет.
Главное достоинство обоих форматов состоит в возможности размещения в тексте издания гиперссылок, по которым осуществляются быстрые переходы как внутри данного издания, так и во внешние, по отношению к данному, документы. В частности, с помощью гиперссылки можно связаться с автором или издателем по электронной почте, просмотреть литературные источники, на которые ссылаются в данном издании, вызвать иллюстрацию, которая поясняет смысл некоторого текстового фрагмента и многое другое.
Большинство электронных материалов, циркулирующих в сети Интернет, оформлены в HTML-формате. Формат достаточно компактен и, наряду с текстом, позволяет включать в издание иллюстрации и мультимедийные фрагменты. Основу HTML-документов составляют обычные текстовые файлы, отдельные символы в которых представлены в ASCII-кодировке. Эти файлы доступны для просмотра и редактирования в любом редакторе текстов. Отличием HTML-издания от обычного текста является то, что в них присутствуют специальные команды - теги, которые указывают правила форматирования документа. Язык HTML и правила составления HTML-документов и работы с ними, будут детально описаны в следующей главе. Недостатком этого формата является чувствительность к используемым в издании шрифтам: отсутствие нужного шрифта на пользовательском компьютере вызывает затруднения при просмотре документа, связанные с необходимостью замены отсутствующей шрифтовой гарнитуры.
Другим основным форматом для электронных документов является PDF (Portable Document Format), разработанный в 1993 г. фирмой Adobe. Как говорит само название, он делает документы «portable», т. е. документы могут просматриваться независимо от программ, в которых они подготовлены и независимо от используемых шрифтов и компьютеров. PDF позволяет преодолеть этот барьер. Так впервые открылась возможность распространять на невещественных носителях (дискетах и компакт-дисках) и через Интернет выполненные в графическом режиме документы, в частности, оригинал-макеты изданий. При этом гарантируется полная идентичность. Это делает PDF-формат чрезвычайно полезным не только для художественных и детских электронных изданий, но и для коммерческих и рекламных документов. В США PDF-формат стал основным для распространения правительственных материалов.
Изначально формат PDF был предложен как альтернатива печатным документам, средство для организации «безбумажного офиса». Просмотр таких документов должен быть организован с помощью универсальных средств, независимо от создавшего их приложения и установленных на данном компьютере шрифтов. Формат PDF может рассматриваться как компактный формат электронной документации. Практически вся документация разнообразных программных пакетов распространяется на компакт-дисках в этом формате. Наконец, этот формат сохраняет всю информацию для выводных устройств, т. е. может служить для хранения оригинала и распечатки по заказу. По сравнению с форматом описания документов PostScript формат PDF имеет то преимущество, что он является странично-ориентированным, т. е. описывает каждую страницу в отдельности. Это резко упрощает вывод отдельных страниц.
PDF поддерживает различные виды компрессии изображений, текста и графики, позволяющие уменьшать размер конкретных фрагментов файла с помощью наиболее подходящих для этого алгоритмов, одновременно позволяя использовать гипертекстовые связи. Фирма Adobe разработала и комплект программного обеспечения для создания, просмотра, редактирования и распечатки PDF-файлов.
В статье подробно описан порядок определения размера файлов и папок, а также объема свободного и занятого пространства запоминающих устройств.
Содержание:
Единицы измерения размера файла
В одной из наших предыдущих статей мы уже говорили о том, что каждый файл или папка имеет определенный размер, который автоматически определяется компьютером в зависимости от их содержания. Размер файла зависит от количества информации, которую он содержит. Размер папки равен сумме размеров находящихся в ней файлов.
Количество информации, а соответственно и размер файла, измеряется в специальных единицах, называемых байтами (сокращенно обозначается латинской буквой b или русской Б).
Байт – это очень маленькое количество информации. На практике чаще встречаются более крупные единицы, а именно:
- килобайт (равен 1024 байтам, сокращенно – kb или КБ);
- мегабайт (равен 1024 килобайтам, сокращенно – mb или МБ);
- гигабайт (равен 1024 мегабайтам, сокращенно – gb или ГБ);
- терабайт (равен 1024 гигабайтам, сокращенно – tb или ТБ).
Есть и еще более крупные единицы, но они в повседневной жизни встречаются редко.
Все запоминающие устройства (постоянные запоминающие устройства компьютеров, портативные носители типа флешек и др.) имеют определенное пространство. Оно не безгранично и также измеряется в байтах.
Например , если говорят, что размер носителя составляет 4 gb, это значит, что на нем одновременно могут находиться файлы и папки, суммарный размер которых не превышает 4 gb.
Как определить размер файла или папки
Чтобы узнать размер файла или папки необходимо щелкнуть по нему правой кнопкой мышки и в открывшемся контекстном меню выбрать пункт "Свойства". Откроется окно "Свойства…", в котором и будет отображена необходимая информация.
Чтобы овладеть навыком определения размера файла и понять, как все работает, предлагаю поупражняться. Создайте на рабочем столе текстовый файл, внесите в него какие-то данные (одно или несколько слов) и сохраните. Откройте окно "Свойства…" этого файла указанным выше способом. В поле "Размер" будет отображаться размер этого файла ( см. изображение , для увеличения щелкните по нему левой кнопкой мышки).
На рисунке видно, что размер созданного автором статьи файла составляет 12,3 kb (или 12675 байт). В Вашем случае, естественно, размеры будут другими.
Если создать папку и поместить в нее файл, то можно убедиться, что размер такой папки будет равен размеру находящегося в ней файла. Указанным выше способом можно узнать размер любого файла или папки.
Как определить суммарный размер нескольких файлов и папок
Чтобы определить суммарный размер нескольких файлов и папок, можно указанным выше способом узнать размер каждого из них и затем сложить все полученные числа. В то же время, такой способ будет связан с большими затратами времени, особенно, если речь идет о значительном числе файлов.
Операционная система Windows позволяет решать подобные задачи значительно проще. Но для этого необходимо овладеть навыком выделения нескольких файлов и папок.
Самый простой способ выделить какой-нибудь файл или папку – один раз щелкнуть по нему левой кнопкой мышки .
Откройте любую имеющуюся на компьютере папку с файлами и выделите один из них указанным способом. После щелчка мышки вокруг значка выделенного файла появится специальная рамка ( см. изображение ).
Если щелкнуть по другому файлу – рамка выделения перейдет на него, а выделение с предыдущего файла автоматически снимется.
Чтобы выделение с предыдущего файла не снималось, на клавиатуре нужно постоянно удерживать нажатой кнопку "Ctrl".
То есть, чтобы выделить несколько файлов и (или) папок, необходимо нажать на клавиатуре кнопку "Ctrl" , и, не отпуская ее, поочередно один раз щелкнуть левой кнопкой мышки по каждому из них. Кнопку "Ctrl" следует отпускать, когда все необходимые файлы и папку будут выделены.
Чтобы овладеть навыком выделения нескольких файлов необходимо немного попрактиковаться, что я вам и рекомендую сделать. Подробнее основные операциях с файлами, которые можно осуществить при помощи мышки, рассмотрены в этой нашей статье.
А для того, чтобы быстро узнать суммарный размер нескольких файлов (папок), необходимо выделить их указанным выше способом, после чего щелкнуть по любому из них правой кнопкой мышки и в открывшемся контекстном меню выбрать пункт "свойства". Откроется окно, в котором будет отображаться уже обобщенная информация ( см.изображение ниже ).
На рисунке видно, что общий размер выделенных 2 файлов и 1 папки составляет 24,7 килобайт (или 25350 байт).
Как определить размер пространства диска или флешки
Если речь идет о съемном устройстве (флешка, портативный жесткий диск и т.д.), его необходимо сначала подключить к компьютеру.
Затем нужно открыть раздел "Компьютер" (дважды щелкнуть левой кнопкой мышки по соответствующему значку на рабочем столе), щелкнуть правой кнопкой мышки по значку этого запоминающего устройства и выбрать пункт "Свойства".
Откроется окно, в котором об этом устройстве будет отображена вся необходимая информация ( см. изображение ):
Емкость – общий размер запоминающего устройства (в байтах);
Занято – какая часть общего размера устройства уже занята (в байтах);
Свободно – сколько байт свободного пространства осталось на запоминающем устройстве.
На примере видно, что локальный диск компьютера имеет:
- общий объем 191 гигабайт (что равно 205534017024 байтам, или 200716813,5 килобайтам, или 196012,5 мегабайтам);
- из этих 191 gb занято 58,6 gb (что равно 62985564160 байтам, или 61509340 килобайтам, или 60067,7 мегабайтам);
- остальное пространство свободно – 132 гигабайта (что равно 142534017024 байтам, или 139193376 килобайтам, или 135931 мегабайтам).
Пользователь, произведя не сложные математические расчеты, всегда может определить, сколько и каких файлов и папок можно сохранить на носителе.
Например , на рассмотренном выше в качестве примера носителе можно сохранить любое количество файлов и папок, если их суммарный размер не будет превышать 132 гигабайта.
Если этот носитель полностью очистить (стереть все уже находящиеся на нем файлы), то на нем можно будет сохранить 191 гигабайт файлов и папок.
· Открытые/закрытые (ODF – очень открытый формат, PDF раньше был закрыт, PDFX, LaTeX, ТХТ, HTML, XML, RTF, DjVu – открытый. закрытый - Inds).
· Векторные(RTF, PDF поддерживает, WMF, SVG, SWF, СDR, EPS, AI) и растровые(DjVu, JPEG, TIFF, BMP, GIF, PNG, PSD, TGA).
Бинарные: хранят информацию в том виде, в каком они представлены в памяти компьютера во время работы, поэтому не происходит никакого преобразования, что ускоряет процесс чтения.
Недостатки: 1) непереносимость, 2) проблема с выравниванием (данные могут располагаться по разным адресам).
Примеры: DOC, PDF, DjVu.
Текстовые: информация хранится в виде текста. Основная цель применения текстовых данных — независимость от отдельных программ, требующих собственного кодирования или форматирования и несовместимых с другими программами. Существуют методы (например, UUENCODE), позволяющие закодировать в текстовом формате произвольные данные любого формата.
Недостаток: скорость считывания и преобразования.
Примеры: HTML, XML, RTF.
Если при открытии в Блокноте кракозябры, то формат бинарный.
Мультимедиа сейчас - это полноценное объединение компьютерных и других информационных технологий: видео, аудио, фото, кино, телекоммуникаций (телефон, телевидение, радиосвязь), не говоря уже о тексте и графике, как статической, так и динамической (анимационной).
Представление текстовой информации:
Наряду с форматом HTML и PDF (последний, строго говоря, хранит текст в графическом формате), текстовые блоки электронных изданий могут быть представлены в форматах DOC (MS Word), P65 (Adobe PageMaker) и многих др.
В том случае, когда электронное издание не содержит мультимедиа-компонентов, то оно может храниться в формате любого текстового редактора или верстального пакета; единственное дополнительное требование к текстовому редактору состоит в том, что он должен поддерживать графические форматы рисунков, если они включены в текст издания.
Для чисто текстовых изданий ограничений еще меньше. Их можно хранить и распространять в любом текстовом формате, используемом в современных персональных компьютерах. В частности, может использоваться формат ТХТ (в том числе «простой текст» или plain text), гораздо более экономичный, чем формат DOC. Из языков разметки текста помимо HTML, наибольшее распространение получили:
- TROFF, применяющийся при оформлении документации в рамках операционной системы UNIX и различных ее версий, включая LINUX;
- ТЕХ, который широко используется для подготовки изданий с большим количеством математических формул;
- SGML (Standart Generic Markup Language) - реализует принцип логической разметки текста, который позволяет разграничить содержимое издания и его электронное представление.
Представление графической информации:
Последовательность графических форматов в порядке убывания их популярности (или частоты применения) для электронных изданий и документов: GIF, JPEG, PNG, TIFF.
GIF (Graphics Interchange Format) - является одним из самых популярных форматов изображений, размещаемых на веб-страницах. Отличительной его особенностью является использование режима индексированных цветов (не более 256), что ограничивает область применения формата изображениями, имеющими резкие цветовые переходы. Небольшие размеры файлов изображений обусловлены применением алгоритма сжатия без потерь качества, благодаря чему изображения в этом формате наиболее удобны для пересылки по каналам связи глобальной сети. В GIF реализован эффект прозрачности и возможности хранить в одном файле несколько картинок с указанием времени показа каждой, что используется для создания анимированных изображений.
JPEG (Joint Photographic Experts Group) - самый популярный формат для хранения фотографических изображений, является общепризнанным стандартом. JPEG может хранить только 24-битовые полноцветные изображения. Хотя JPEG отлично сжимает фотографии, но это сжатие происходит с потерями и портит качество, тем не менее, он может быть легко настроен на минимальные, практически незаметные для человеческого глаза, потери.
TIFF (Tag Image File Format). Как универсальный формат для хранения растровых изображений, TIFF достаточно широко используется, в первую очередь, в издательских системах, требующих изображения наилучшего качества. Кстати, возможность записи изображений в формате TIFF является одним из признаков высокого класса современных цифровых фотокамер. В этом формате поддерживаются такие чисто профессиональные возможности, как обтравочные контуры, альфа-каналы, возможность сохранять несколько копий изображения с разным разрешением и даже включать в файл слои.
PNG (Portable Network Graphics) - формат PNG, являющийся плодом трудов сообщества независимых программистов, появился на свет как ответная реакция на переход популярнейшего формата GIF в разряд коммерческих продуктов. Этот формат, в отличие от GIF сжимает растровые изображения не только по горизонтали, но и по вертикали, что обеспечивает более высокую степень сжатия. Как недостаток формата часто упоминается то, что он не дает возможности создавать анимационные ролики. Зато формат PNG позволяет создавать изображения с 256 уровнями прозрачности что, безусловно, выделяет его на фоне всех существующих в данный момент форматов. Представление аудиофайлов:
Самым популярным форматом для представления аудиоданных является MP3, так как такие файлы имеют небольшой размер и сравнительно хорошее качество звучания, за счет применяемых алгоритмов сжатия, а также открывается всеми современными аудиоплеерами.
Из форматов звуковых файлов следует упомянуть AU для UNIX-подобных систем и платформ, WAV - стандарт звуковых файлов для операционной системы Windows, AIFF - стандарт звуковых файлов для платформы Apple Macintosh и MIDI (Musical Instrument Digital Interface) - формат электронных музыкальных инструментов. Кратко остановимся на каждом из них.
Представление видеофайлов:
Самые популярные форматы – это QuickTime фирмы Apple, MPEG комитета Motion Picture Expert Group и AVI фирмы Microsoft.
Общая черта всех популярных форматов цифровых видеофайлов состоит в том, что основная часть любого из них - это система сжатия и восстановления видеоданных (compression/decompression - сокращенно codec), называемая кодеком. Обычно программы, поддерживающие основные форматы видеофайлов, позволяют замещать старые кодеки на новые, более совершенные, по мере разработки последних. Такой подход позволил легко адаптировать форматы видеофайлов и поддерживающие их программы к новым технологиям, как только те становились доступными.
*Если потребуются подробности, их можно почитать тут:
2. Подготовка электронных изданий в формате PDF. Структура документа в формате PDF — трейлер, таблица перекрестных ссылок.
PDF (аббревиатура от англ. Portable Document Format) — разработанный фирмой Adobe Systems с использованием ряда возможностей языка PostScript, как независимый от платформы формат представления в электронном виде полиграфической продукции, различной электронной документации (в том числе электронные книги) и презентаций.
PDF-публикация (документ) содержит одну или более страниц. Каждая страница может включать любые компоненты электронного издания: текст, графику и иллюстрации, анимацию, видео- и аудиоинформацию в аппаратно-независимом формате, в виде так называемого страничного описания (page description). PDF-публикация может также содержать информацию, обеспечивающую навигацию в гипертекстовой электронной публикации.
Кроме того, публикация содержит версию спецификации PDF, использованную в конкретном файле, и информацию о расположении структуры файла.
Формат PDF представляет текст и графику, используя модель формирования изображений языка программирования полос PostScript. Графическими объектами могут быть тексты и формы публикаций, векторные и растровые изображения и т.д. Графические объекты могут быть любого цвета.
Операторы создания страниц PDF подобны операторам языка PostScript. Главное отличие состоит в том, что PDF не программный язык, он не содержит процедур, переменных и т.п.
Характерными особенностями PDF-файла являются:
§ PDF-файл может содержать объекты, подобные гипертекстовым ссылкам, доступные только при интерактивном просмотре;
§ для упрощения процесса описания страниц PDF не использует конструкции программных языков;
§ PDF создает определенную структуру файла, которая позволяет программным приложениям иметь доступ к любой части документа;
§ PDF-файл содержит информацию о размерах шрифта и т.п.;
§ PDF-файл не может быть прямо преобразован в PostScript-публикацию для печати;
Для прямого поиска любой страницы файла PDF-файл содержит специальную таблицу ссылок. Таблица размещается в конце файла и способствует уменьшению времени поиска и вывода страницы в PDF-публикации, так как обеспечивает независимость времени поиска от общего количества страниц в документе.
Структура файла:
Обычный PDF-файл содержит четыре раздела:
· «тело файла» (body);
· таблицу перекрестных ссылок (cross-reference table);
Заголовок. Первая строка PDF-файла определяет номер спецификации PDF, которой придерживается данный файл (текущая - 1.2% PDF-1.2).
Тело файла. Содержит последовательность косвенных объектов, входящих в состав публикации. Объекты - это компоненты публикации: страницы, изображения, шрифты. Комментарии могут быть во всем PDF-файле. Их синтаксис совпадает с синтаксисом комментариев в PostScript, они начинаются с % и заканчиваются символом конца строки.
Таблица перекрестных ссылок. Таблица содержит информацию о каждом объекте в файле в виде одной строки описания места объекта в файле. PDF-файл содержит таблицу, состоящую из одного или более разделов. Если нет изменений или добавлений в файл, таблица состоит из одного раздела. В противном случае в ее состав добавляется новый раздел.
Приведем описание раздела таблицы, состоящего из подразделов. Каждый подраздел включает данные для непрерывной области номеров объектов. Организация подразделов удобна для пошагового изменения, потому что допускает добавление нового раздела перекрестной ссылки, содержащей данные об объектах, которые были добавлены или удалены.
Каждый подраздел перекрестной ссылки начинается со строки заголовка, содержащей два числа: объектный номер в этом подразделе и номер данных в подразделе.
Есть два формата данных таблицы: для объектов, которые используются, и для объектов, которые были удалены.
Для объекта, который используется в публикации, указываются байтовое смещение, определяющее количество байтов от начала файла к началу объекта, номер генерации объекта, и ключевое слово n: <in-use entry> ::= <byte offset><generation number> n.
Для объекта, который свободен, указываются объектный номер следующего свободного объекта, номер генерации и ключевое слово f: <free entry> ::= <object number of next free object><generation number> f.
Когда косвенный объект удаляется, его запись в таблице помечается как «свободная», и номер генерации объекта увеличивается на единицу, чтобы открыть возможность использования объекта с таким номером.
Trailer позволяет программному приложению при чтении PDF-файла быстро находить таблицу перекрестных ссылок и специальные объекты. Приложения должны читать PDF-файл с конца. Последняя строка содержит маркер конца файла %%EOF; две предшествующие строки - ключевое слово startxref и байт смещения от начала файла к началу слова xref в последнем разделе таблицы ссылок в файле. Trailer dictionary предшествует этой строке.
Атрибуты trailer показывают смещения от начала файла к месту расположения последнего после изменения раздела таблицы ссылок, каталог объектов для публикации (в виде dictionary), массив двух string-идентификаторов создания и изменения файла, информацию для декодирования документов и т.п.
Читайте также: