Как соотносятся размер файла pdf и качество документа при экспорте
PDF-файлы с обилием графических элементов смотрятся симпатично, однако передавать их по электронной почте – сплошное мучение из-за больших размеров таких документов. Необязательно долго ждать, пока файл прикрепится к письму, ведь вы можете уменьшить его размер практически без потери качества. Благо способов сделать это предостаточно – выбирайте какой пожелаете.
Стоит, однако, заметить, что половина из перечисленных ниже способов осуществима лишь при помощи Acrobat DC от Adobe, установленного на вашем ПК. Это платный продукт, однако пробная 30-дневная версия распространяется абсолютно бесплатно. Она доступна на официальном интернет-ресурсе Adobe Systems.
С помощью CutePDF или иного PDF-конвертера
Уменьшить размер PDF-файла можно при помощи одного из конвертеров, например, CutePDF. Она позволяет переводить файлы из любого доступного для печати формата в PDF, а также менять размер документа, повышая или понижая качество изображения и текста. При установке данного продукта в системе создается виртуальный принтер, который вместо печати документов конвертирует их в PDF-формат.
1. Загрузите CutePDF с официального сайта (бесплатно) и установите. Не забудьте вместе с ней установить конвертер, иначе после щелчка по кнопке «Печать» ничего не произойдет.
2. Откройте файл в программе, которая поддерживает его формат и имеет возможность печати документов. Если это PDF-файл, его можно открыть в Adobe Reader; а если файл имеет формат doc или docx, подойдет Microsoft Word. Кликните по пункту меню «Файл» и выберите «Печать».
3. Когда откроется окно с настройками печати, из списка принтеров выберите CutePDF Writer.
4. Щелкните по кнопке «Свойства принтера», в открывшемся окне кликните по кнопке «Дополнительно» и выберите качество отображения содержимого. Чтобы сжать файл до нужного размера, выбирайте качество меньше первоначального.
5. Щелкните по кнопке «Печать» и сохраните файл в нужное место. Для сохранения доступен только PDF, вне зависимости от того, какой формат у документа был изначально.
С помощью онлайн-инструментов
Если не хотите ничего качать и устанавливать, тогда можете сжать ПДФ-файл в режиме online. Сжатие и конвертирование документов в онлайн – это быстро и удобно.
1. Найдите подходящий инструмент в Интернете, например, Smallpdf. В отличие от других подобных онлайн-инструментов, здесь пользователю не ставят ограничений по размерам и количеству загружаемых документов.
2. Зайдя на сайт, загрузите на него нужный документ. Сделать это можно, кликнув по надписи и выбрав файл посредством проводника, или перетащив файл левой клавишей мышки и бросив в нужной области. Вы также можете добавить документ из Dropbox или c «Google Диска».
3. По окончании процесса кликните по кнопке «Можете сохранить файл» и выберите для него место на своем ПК. Чтобы загрузить сжатый документ на «Google Диск» или в Dropbox, щелкните по соответствующему значку в правой части кнопки.
Кроме Smallpdf в Интернете есть множество других онлайн-компрессоров: Compress PDF, Online2pdf, PDFzipper и прочие. Одни позволяют загружать файлы размером до 50 Мб, вторые – до 100 Мб, третьи вовсе не имеют ограничения, но работу свою они выполняют на примерно одинаковом уровне.
В Adobe Acrobat
Сжать файл PDF вы можете и в Adobe Acrobat DC, но не в бесплатном Adobe Reader.
1. Открыв документ в «Акробате», кликните по пункту меню «Файл», затем выберите «Сохранить как другой» и щелкните по строчке «Файл PDF уменьшенного размера».
2. Щелкните в выпадающем списке по версии программы, с которой ваш документ должен быть совместим. Выбрав самую новую версию, вы можете максимально сжать файл, однако есть риск, что он станет недоступным в предыдущих версиях «Акробата».
3. Кликните по кнопке «Ок», дождитесь окончания процесса сжатия и сохраните сжатый документ в желаемое место.
Еще один метод сжатия PDF в Adobe Acrobat DC
Если у вас установлен Adobe Acrobat и требуется сжать документ, расположенный у вас на ПК, гораздо целесообразнее воспользоваться предыдущим способом. Этот же метод можно применять, когда нужный файл загружен, скажем, на «Google Диск», а вам нужно его скачать, попутно уменьшив размер.
1. Зайдите в «Google Диск» со своего аккаунта, дважды кликните по PDF-файлу, который хотите сжать, и нажмите на значок принтера, чтобы открыть экран печати.
2. В открывшемся окошке кликните по выпадающему списку и выберите строчку Adobe PDF.
3. Щелкнув по кнопке «Свойства», вы откроете другое окошко, где надо выбрать вкладку «Бумага и качество печати», а затем кликнуть по кнопке «Дополнительно» в нижней части окна.
4. В выпадающем списке (см. скриншот ниже) выберите желаемое качество документа, в нижней части окошка кликните по кнопке «Ок», затем в следующих двух окнах тоже нажмите на «Ок».
5. Сохраните уменьшенный файл на своем ПК.
С помощью Adobe Acrobat и Microsoft Word
Суть этого способа сжатия PDF-документов состоит в том, что вы сначала переводите файл из одного формата в другой, а затем делаете обратное конвертирование.
1. Откройте документ в формате ПДФ через Adobe Acrobat, зайдите в меню «Файл» и выберите «Сохранить как».
2. Щелкните по кнопке «Выбрать другую папку», затем выберите тип файла «Документ Word (*.docx)» и место сохранения. Нажмите на «Сохранить».
3. Открыв документ в Microsoft Word, щелкните по пункту «Файл» и выберите подпункт «Сохранить как Adobe PDF».
4. Нажмите на «Сохранить».
При помощи оптимизатора PDF
Этот метод уменьшения размера PDF-файлов также не обходится без использования ПО от Adobe Systems.
1. Откройте документ, который нужно уменьшить, с помощью Adobe Acrobat. Далее зайдите в меню «Файл», кликните по строчке «Сохранить как другой» и выберите «Оптимизированный файл PDF», чтобы запустить оптимизатор PDF-документов.
2. В открывшемся окошке «Оптимизация PDF» нажмите на кнопку «Оценить использование пространства», чтобы понять какие элементы сколько места в файле занимают (в байтах и в процентах).
3. Оценив, что можно уменьшить, а что сжимать смысла нет, закройте окошко, кликнув по кнопке «Ок», и выставьте необходимые параметры сжатия. Для этого в левой части окна левой кнопкой мышки кликайте на тот или иной пункт, а в правой части – меняйте параметры.
4. Вы можете удалять изображения, делать их из цветных черно-белыми, сжимать, менять разрешение, менять встроенные шрифты и т.д. «Наигравшись» с параметрами, нажмите на кнопку «Ок» и сохраните оптимизированный файл в нужную директорию.
Способ сжать PDF-файлы в Mac OS X
PDF-документы, создаваемые операционной системой Mac OS X по размеру заметно больше, чем файлы с тем же содержанием, созданные при помощи Adobe Acrobat. Если вы пользователь операционки Mac OS X и желаете уменьшить размер созданного вами PDF-файла, сделайте следующее:
- Откройте приложение TextEdit, после чего в меню программы кликните по пункту «Файл», а затем выберите «Напечатать».
- В левом нижнем углу открывшегося окошка вы увидите кнопку с названием PDF. Щелкните по ней, а затем по строчке «Сжать PDF» в выпадающем списке. В результате вы получите более компактный PDF-файл.
Архивация файла
Чтобы документ занимал меньше места на вашем компьютере, можете его заархивировать при помощи одного из архиваторов, например, 7Zip или WinRAR. Обе программы достаточно популярны, однако первая распространяется бесплатно, а за пользование второй свыше срока, ограниченного пробной версией, придется заплатить.
Чтобы сжать документ при помощи архиватора 7Zip, щелкните по файлу правой кнопкой мыши, после чего левой кнопкой манипулятора кликните сначала по строчке 7Zip, а затем – по надписи «Добавить к «название_файла». Тогда архив будет создан автоматически.
Если хотите перед архивацией выставить определенные параметры, выбирайте строчку «Добавить к архиву». Тогда откроется такое окошко, как на скриншоте ниже.
Воспользовавшись архиватором, вы можете заметно уменьшить размер документа, а также создать архив, состоящий из нескольких файлов, сжатых и объединенных между собой. Это заметно облегчит их хранение и передачу по электронной почте. Только перед отправкой заархивированного PDF-файла убедитесь в том, что у адресата тоже установлен архиватор, иначе он не сможет открыть архив.
Примечание: Adobe Acrobat и Adobe Reader – это не одно и то же. Reader распространяется бесплатно, но его набор функций по редактированию PDF-файлов крайне ограничен, поэтому уменьшать размер документов можно только в Acrobat’е. Однако Adobe Acrobat – программа платная. И если у вас ее нет и покупать ее вы не хотите, воспользуйтесь другими вариантами сжатия PDF-документов, с ней не связанными.
При экспорте PDF в файлы других форматов с помощью инструмента Экспорт PDF в Acrobat для каждого из форматов существуют собственные уникальные параметры преобразования. Для просмотра форматов, в которые можно экспортировать файлы PDF в Acrobat, выберите Инструменты > Экспорт PDF .
С помощью диалогового окна Оптимизация PDF файлы PDF можно заново сохранить как оптимизированные. В окне Оптимизация PDF можно менять параметры совместимости файлов PDF так, чтобы просматривать их в старых версиях программ Acrobat или Reader. Если изменить настройку совместимости, более новые функции будут недоступны в файлах PDF. Описание настроек совместимости представлено в разделе Уровни совместимости PDF.
Если каждый раз при преобразовании документов PDF в конкретный формат нужно применять одни и те же настройки, укажите их в диалоговом окне «Установки». На панели Преобразование из PDF выберите файловый формат из списка и нажмите Изменить настройки . (установки по умолчанию можно в любое время восстановить, нажав кнопку «Восстановить значения по умолчанию»).
Параметры JPEG и JPEG2000
Если в документе PDF содержится набор изображений, их можно экспортировать по отдельности как файлы JPEG, PNG или TIFF, выбрав меню Инструменты > Экспорт PDF > Изображение > Экспорт всех изображений.
Обратите внимание, что доступность параметров зависит от преобразования документа в JPEG или JPEG2000.
Параметры файла
- Сжатие в градациях серого/цветных изображений. Задает сжатие, уравновешивающее размер файла и качество изображения. Чем меньше файл, тем хуже качество изображения.
- Мозаика. Разделяет сжимаемое изображение на сегменты заданного размера. (если высота или ширина изображения не кратна размеру сегмента, по краям используются частичные сегменты). Данные изображения для каждого сегмента сжимаются отдельно, восстановление их также можно выполнять по отдельности. Рекомендуется использовать значение по умолчанию, равное 256. Этот параметр доступен только для формата JPEG2000.
- Формат. Определяет способ отображения файла. Доступно только для формата JPEG. Доступны следующие параметры:
- Базовый (стандартный). Отображает изображение после его полной загрузки. Данный формат JPEG распознается почти всеми веб-браузерами.
- Базовый (оптимизированный). Оптимизирует качество цветного изображения и создает файлы меньших размеров. Не поддерживается некоторыми веб-браузерами.
- Прогрессивный (3 прохода – 5 проходов). В начале загружает изображение с низким разрешением, затем по мере загрузки качество изображения улучшается.
Управление цветом
RGB/CMYK/В градациях серого
Задает тип управления цветом, применяемый к выходному файлу, и встраивает ICC-профиль.
Если команда Экспорт в или «Экспорт всех изображений» используется для файла PDF, содержащего изображения JPEG и JPEG 2000, и содержимое экспортируется в формате JPEG или JPEG 2000, полученное изображение при открытии в приложении Acrobat может выглядеть иначе. Это может произойти в том случае, если в изображения встроены цветовые профили на уровне страницы, а не внутри данных изображения. В таком случае Acrobat не может использовать цветовой профиль на уровне страницы для сохраняемого изображения.
Преобразование
Задает цветовое пространство и разрешение выходного файла. Acrobat может определить эти настройки автоматически. Для преобразования цветных изображений в файл в градациях серого выберите «В градациях серого».
Более высокое разрешение, например 2400 ppi, подходит только для страниц маленького размера (до 6,826 дюйма или 173,380 мм).
Параметры PNG
Формат PNG используется для изображений в Интернете.
Параметры файла
Определение чересстрочного изображения. Изображение отображается в веб-браузере только после полной загрузки. Adam7 создает изображение, которое отображается в веб-браузере с низким разрешением, пока загружается полный файл изображения. Adam7 позволяет сократить время загрузки и информирует средства просмотра о процессе загрузки, но при этом увеличивается размер файла.
Фильтр. Позволяет выбрать алгоритм фильтрации.
- Отсутствует. Сжимает изображения без фильтра. Рекомендуется для индексированных и битовых изображений.
- Под. Оптимизирует сжатие изображений с четными горизонтальными узорами или переходами.
- Над. Оптимизирует сжатие изображений с четными вертикальными узорами.
- Усредненный. Оптимизирует сжатие шумов низкого уровня с помощью усреднения цветовых значений соседних пикселей.
- Контур. Оптимизирует сжатие шумов низкого уровня с помощью перераспределения соседних цветовых значений.
- Адаптивный. Применяет алгоритм фильтрации, наиболее подходящий для изображения — «Под», «Над», «Усредненный» или «Контур». Выберите «Адаптивный», если неизвестно, какой фильтр использовать.
Управление цветом
RGB/В градациях серого
Задание типа управления цветом для выходного файла и встраивания ICC-профиля.
Преобразование
Задает цветовое пространство и разрешение выходного файла. Acrobat может определить эти настройки автоматически. Для преобразования цветных изображений в файл в градациях серого выберите «В градациях серого».
Более высокое разрешение, например 2400 ppi, подходит только для страниц маленького размера (до 6,826 дюйма или 173,380 мм).
Параметры TIFF
TIFF представляет собой гибкий формат растрового изображения, поддерживаемый практически всеми приложениями рисования, обработки изображений и верстки. Разрешение определяется автоматически.
Параметры файла
Задание формата сжатия. Значение по умолчанию CCITTG4 обычно обеспечивает наименьший размер файла. Сжатие ZIP также позволяет получить файлы малых размеров.
В некоторых приложениях невозможно открыть файлы TIFF, сохраненные со сжатием JPEG или ZIP. В таких случаях рекомендуется использовать сжатие LZW.
Управление цветом
RGB/CMYK/В градациях серого/Другое
Задание типа управления цветом выводного файла.
Преобразование
Задает цветовое пространство и разрешение выходного файла. Acrobat может определить эти настройки автоматически. Для преобразования цветных изображений в файл в градациях серого выберите «В градациях серого».
Более высокое разрешение, например 2400 ppi, подходит только для страниц маленького размера (до 6,826 дюйма или 173,380 мм).
Файл PDF можно экспортировать в формат Word (DOCX или DOC) или расширенный текстовый формат (RTF) . В Acrobat выберите Инструменты > Экспорт PDF и выберите Microsoft Word или Word 97-2003 . При нажатии на значок (настройки) доступны следующие параметры:
Настройки макета
- Сохранить обтекание текстом. Указывает на то, что обтекание текстом должно быть сохранено.
- Сохранить макет страницы. Указывает на то, что макет страницы должен быть сохранен.
Настройки комментариев
- Включить комментарии. Экспортирует комментарии в выходной файл.
Параметры изображений
- Включить изображения. Экспортирует изображения в выходной файл.
Настройки распознавания текста
- Распознать текст при необходимости. Распознает текст, если файл PDF содержит изображения с текстом.
- Выбрать язык. Указывает язык для оптического распознавания символов.
При нажатии на Дополнительные настройки доступны следующие параметры:
Параметры файлов и панели навигации
Одна страница HTML
Указывает, что при экспорте в формат HTML создается один файл HTML. Чтобы добавить панель навигации, включите следующие параметры:
Добавить кадр навигации на базе заголовков
Добавить кадр навигации на базе закладок
Несколько страниц HTML
Указывает, что при экспорте в формат HTML создается несколько файлов HTML. Чтобы разделить документ на несколько файлов HTML, выберите один из критериев.
Разделить по заголовкам документа
Разделить по закладкам документа
Параметры содержимого
Указывает, экспортировать ли изображения при экспорте файла PDF в HTML.
Найти и удалить верхний и нижний колонтитулы
Указывает, необходимо ли удалить содержимое верхнего и нижнего колонтитулов в документе PDF из файлов HTML.
Настройки распознавания текста
Распознать текст при необходимости
Распознает текст, если файл PDF содержит изображения с текстом.
Указывает язык для оптического распознавания символов.
В Acrobat выберите Инструменты > Экспорт PDF и выберите рабочую книгу Microsoft Excel или таблицу XML 2003 . При нажатии на значок (настройки) доступны следующие параметры:
Настройки книги Excel
Указывает, будет ли создан рабочий лист для каждой таблицы, страницы или всего документа.
Настройки формата чисел
Указывает десятичный разделитель и разделитель разрядов для числовых данных. Выберите один из следующих вариантов.
Определить десятичный разделитель и разделитель разрядов исходя из региональных настроек
Рассматривать следующие символы как десятичный разделитель и разделитель разрядов. Введите или выберите разделители в соответствующих полях.
Настройки распознавания текста
Распознать текст при необходимости
Распознает текст, если файл PDF содержит изображения с текстом.
Указывает язык для оптического распознавания символов.
Возможен экспорт файлов PDF в PostScript® для использования в приложениях печати и допечатной подготовки. Файл PostScript включает все комментарии DSC ( Document Structuring Conventions ) и другую дополнительную информацию, сохраняемую программой Adobe Acrobat Distiller ®. Из любого файла PDF можно также создать файл EPS, который можно будет использовать вместо файла PDF или открывать в других приложениях. Набор доступных параметров зависит от того, преобразуется ли документ в PostScript или EPS.
При создании файлов EPS для цветоделения в программе Acrobat Pro все изображения должны находиться в цветовом пространстве CMYK.
Файл описания принтера
Файл описания принтера (PPD) предоставляет сведения, необходимые для правильного форматирования файла PostScript при выводе на определенное выводное устройство. Аппаратно-независимый — создает только совмещенные (не цветоделенные) файлы PostScript или EPS. Acrobat по умолчанию — предоставляет исходную точку и ссылку для создания всех типов файлов PostScript и восстанавливает для преобразования все настройки по умолчанию. Формат Adobe PDF 7.0 совместим с большинством устройств. Этот параметр доступен только для формата PostScript.
ASCII или двоичный
Определяет выходной формат данных изображений. Двоичный формат обеспечивает меньший размер файлов, но его можно использовать не во всех рабочих процессах.
Определяет уровень совместимости с языком PostScript. Следует использовать Level 3 только в том случае, если устройство вывода обеспечивает его поддержку. Language Level 2 подходит для файлов EPS, предназначенных для размещения в других документах, цветоделение которых выполняется в составе этого документа. Используйте Level 2 для файлов EPS, импортируемых в приложения Microsoft.
Определяет шрифты, которые будут включены в PostScript. Встроенные шрифты берутся из PDF, все прочие — из системы используемого компьютера.
Сохраняет оформление комментариев в конечном файле PostScript.
Преобразовать шрифты TrueType в Type 1
Преобразует шрифты TrueType в Type 1 в конечном PostScript-файле.
Определяет создание файла просмотра TIFF для конечного файла EPS. Этот параметр недоступен в случае сохранения файла в формате PostScript.
Задает страницы для экспорта. При экспорте страниц в EPS каждая страница в диапазоне сохраняется в отдельном файле EPS.
Документы PDF можно экспортировать в текстовые файлы и формат XML. В Acrobat выберите Инструменты > Экспорт PDF > Другие форматы и выберите Текст (доступный) или Текст (простой) или XML 1.0 .
При нажатии на значок XML 1.0 (настройки) доступны следующие параметры:
Параметры выходного файла
В таблице преобразования по умолчанию используется кодировка по умолчанию, определенная в таблицах преобразования, расположенных в папке Plug-ins/SaveAsXML/MappingTables. Такие таблицы соответствия определяют различные характеристики вывода данных, включая следующие стандартные кодировки: UTF-8 (сохранение в виде XML или HTML 4.0.1) и HTML/ASCII (сохранение в виде HTML 3.2).
Создает закладки для перехода по содержимому документов HTML или XML. Закладки размещаются в начале создаваемого документа HTML или XML.
Создать теги в файлах, в которых они отсутствуют
Создает теги для файлов, в которых они отсутствуют (например, для файлов PDF, созданных с помощью Acrobat 4.0 или более ранних версий). Если этот параметр не установлен, неразмеченные файлы не преобразуются.
Теги создаются только в процессе преобразования, затем они удаляются. С помощью этого метода нельзя создавать файлы PDF с тегами из устаревших файлов
Параметры файлов изображений
Контролирует преобразование изображений. Ссылки на преобразованные файлы изображений находятся в документах XML и HTML.
Использовать вложенную папку
Задает папку, в которую сохраняются созданные изображения. По умолчанию используется папка Images.
Задает выходной формат изображений. Формат по умолчанию — JPG.
Понижает разрешение графических файлов до заданного разрешения. Если эта опция не используется, файлы изображений сохраняются с разрешением исходных файлов. Увеличение разрешения файлов не используется никогда.
Проектировщикам известно о требованиях Минстроя к объему файла для его загрузки на государственную экспертизу.
В соответствии с п. 4е) Приказа Минстроя России от 12 мая 2017 года № 783/пр размер файла не должен быть более 80 мегабайт
Файл можно поделить на несколько частей, как это рекомендуется нормативным документом, а можно сжать.
Это достаточно трудоемкая процедура, требующая времени, но результат вас порадует: файл будет быстро обрабатываться программой при перелистовании и просмотре, а качество изображения не ухудшится. Шрифт автокада размером 2,5 также будет хорошо читаем.
Способ сжатия файла, при котором его объем сокращается в двое и более раз
Показываю на примере программы Adobe Acrobat Pro DC:
Шаг 1: Открыть файл и сохранить в формате jpeg
В меню программы выбираем: Файл - Сохранить как - JPEG
Все страницы файла pdf сохраняться как отдельные файлы-картинки. При этом автоматически исчезнут слои и встроенные шрифты, поддерживаемые редактором Adobe. Это будет первым шагом уменьшения объема и увеличения скорости обработки при чтении файла в дальнейшем.
Если файл очень тяжелый, то может возникнуть вот такая ошибка:
Не раздумывая жмём кнопку Пропустить , предварительно поставив галочку для фразы Пропустить все случаи в данном документе . Программа переведет все страницы файла в формат jpeg, которые сможет обработать в пакетном автоматическом режиме.
Те страницы, которые программа не смогла обработать, извлекаем из pdf файла: для этого выбираем в левом боковом меню " миниатюры страниц " и жмем на ту страницу, которую нужно извлечь - в данном случае страница 4.
Нажимаем на органайзер и выбираем из выпадающего списка " Извлечь страницы. " Нигде галки не ставим, а нажимаем ОК .
Программа выделит страницу отдельным файлом, название которого будет начинаться со слов "страницы из. "
Если при ее переводе в формат JPEG снова возникла ранее известная ошибка, попробуйте пересохранить файл в другой растровый формат, например png. Также на результат может повлиять сжатие файла (см. скриншот 8 в шаге 3).
Шаг 2. Файлы jpeg собрать в один файл pdf обратно
Итак, теперь у нас есть каждая страница тяжелого файла в отдельности без скрытых слоев, встроенных шрифтов и сложной графики.
Соберем обратно файл pdf. Теперь он будет весить меньше исходного, так как в нем не будет скрытых слоев, встроенных шрифтов и сложной графики.
Открываем тот файл jpeg с помощью редактора Adobe Acrobat Pro DC, который должен быть первой страницей нашей сборки.
Через органайзер (см. скриншот 4) выбираем Вставить страницы - из файла.
Формат PDF уже давно прижился как средство сохранения документов, которые затем не предполагается редактировать. Все PDF файлы можно условно разделить на два класса. Первый – это документы, которые были свёрстаны в цифровом виде, и затем были сконвертированы в PDF. Инструкция к какому-нибудь устройству будет, скорее всего, именно таким файлом. Внутри он выглядит как текст и графика плюс команды форматирования, описывающие, как надо располагать элементы на странице.
Второй класс – это документы, полученные в результате сканирования бумажных изображений. Их можно пропустить через ABBYY FineReader, и они превратятся в первый тип, а можно просто сохранить в PDF как картинки. И этим часто имеет смысл пользоваться, когда хочется сохранить исходный вид документа. Несмотря на то, что ABBYY FineReader довольно хорошо распознаёт документы, возникают ошибки распознавания, какие-то важные элементы на странице не находятся, в общем, то, что получается, по виду несколько отличается от исходного документа.
Поэтому часто имеет смысл сохранять в PDF изображение исходной картинки, а под него подкладывать распознанный текст для того, чтобы можно было найти документ по ключевым словам или воспользоваться copy-paste. Смущает только один момент – такие PDF-файлы имеют немаленький размер, от полумегабайта на страницу и больше. Соответственно, если отсканировать среднего размера учебник по матанализу, получится файл мегабайт на 200.
Такой размер объясняется тем, что внутри в PDF отсканированные, растровые изображения сжаты обычными картиночными кодеками, JPEG, JPEG2000, LZW или ZIP. Соответственно, меньше, чем занимают обычные JPEG-файлы для таких страничек, не получается. Чтобы уменьшить размер, обычно прибегают к разного рода ухищрениям – уменьшают разрешение, сильно занижают сжатие картинки, в результате чего сильно страдает качество текста в таких PDF.
Или тогда приходится отказываться от PDF и сохранять всё в DjVu. Получается довольно маленький размер, но действительность такова, что не все пользователи полученного файла с лёгкостью смогут его прочитать – всё-таки Adobe Acrobat стоит на гораздо большем числе компьютеров, чем DjVu-просмотрщик.
И тут на помощь приходит технология PDF MRC (от “Mixed Raster Content”) – ответ Adobe формату DjVu. Это тот же PDF, но заимствующий многие элементы из DjVu, и может читаться всеми популярными PDF-читалками. При использовании MRC размер страницы уменьшается раза в 4 при сохранении качества отсканированного изображения. Это происходит благодаря решению разделить изображение на слои и каждый слой сжимать наиболее подходящим кодеком. Текст сжимается кодеком JBIG2, всё остальное сжимается с помощью JPEG/JPEG2000/ZIP с разным качеством.Как устроен внутри PDF MRC? Рассмотрим простой пример, а затем постепенно будем его усложнять.
Пускай у нас есть скан белой страницы с чёрным текстом, например, страницы из книги (все картинки кликабельны).Скан, JPEG, 1,2 Мб
Полезная информация – только буквы, всё остальное можно игнорировать. Найдём весь текст на странице, например, логично для этого запустить FineReader и распознать страницу. Затем выделяем весь найденный текст в отдельный слой, и сжимаем его с помощью кодека JBIG2. Получаем 50 килобайт на страницу против 400 у JPEG и 200 у чёрно-белого факсового кодека CCITT4.
JBIG2 специально создан для сжатия текста. При работе он объединяет внешне похожие изображения букв в кластеры. Примерами таких кластеров, например, могут служить все буквы ‘a’, напечатанные одним шрифтом одинакового размера. Немного отличающиеся буквы ‘a’, например, с искажениями от сканирования, или напечатанные другим шрифтом, попадут в другие кластеры. В результате получается словарь, в котором объединены часто встречающиеся одинаковые буквы. Затем для каждой буквы запоминается её место. Получается весьма компактно.
JBIG2, 50 Кб. PDF с дополнительной информацией имеет размер 80 Кб
Теперь усложним задачу. Пускай у нас есть неравномерный фон, который не хочется терять.
Tiff, 500 Кб
Для этого нам понадобится уже два слоя. Первым из них по-прежнему будет текст, сжатый JBIG2. А во второй слой попадёт всё, что остаётся от исходной картинки после вырезания букв и закрашивания дырок от них. Второй слой мы можем достаточно сильно сжать с помощью JPEG, так как на нём обычно нет особо ценной информации.
Итоговый PDF имеет размер 35 Кб против 190, которые мы бы получили, просто сжав всю картинку в JPEG.
Текст, JBIG2, 18 Кб
Фон, 11 Кб, JPEG
Итоговый PDF MRC, 35 Кб
Следующее усложнение. До сих пор мы выводили только чёрно-белый текст. Пусть теперь у нас будет встречаться цветной текст.
Tiff, 700 Кб
По-прежнему жмём текст чёрно-белым кодеком JBIG2, но под цветные буквы подкладываем так называемую цветовую маску – ещё один слой, который видно в «прорезях», сделанных буквами. Этот слой содержит мало цветов, и прекрасно упаковывается, например, с помощью ZIP.
Текст, JBIG2, 11 Кб
Цветовая маска, ZIP, 3 Кб
Текст + цветовая маска выглядят так:
Фон, JPEG, 40 Кб
Со сжатием фона важно не переусердствовать – на него может попасть текст, который не был распознан как текст. И если мы сожмём его слишком сильно, такой текст будет трудно читать.
Итоговый PDF MRC, 60 Кб
Итак, набралось уже 3 слоя: текст, цветовая маска, которая раскрашивает текст, и фон. Осталось разделаться с элементами, которые не являются ни текстом, ни фоном. Например, это картинки или фотографии. С ними ничего особенного сделать нельзя, и мы просто добавим их в фон, сжимая JPEG или JPEG 2000 с высоким качеством.
Tiff, 600 Кб
Текст, JBIG2, 25 Кб
Цветовая маска, ZIP, 5 Кб
Фон, JPEG, 40 Кб
PDF MRC готов. Он содержит несколько слоёв, каждый из которых содержит разные кусочки картинки и сжат наиболее подходящим кодеком.
Итоговый PDF MRC, 72 Кб
Конечно же, есть изображения, которые не выигрывают в размере от использования MRC. Например, пытаться сжать так фотографию пейзажа нет никакого смысла, меньше, чем JPEG не получится. Или текст, напечатанный на фоне, содержащем много мелких деталей.
Из такой картинки PDF MRC не получится
Однако для многих документов, которые мы встречаем в повседневной жизни, MRC даёт отличные результаты.
И напоследок – несколько примеров PDF MRC, которые можно получить с помощью ABBYY FineReader, ABBYY FineReader Engine или ABBYY Recognition Server:
PDF, JPEG PDF, MRC 524 Кб 218 Кб
618 Кб 175 Кб 412 Кб 113 Кб Итого, мы получаем сжатие в 2-6 раз при том же качестве, и это не предел. PDF MRC – ещё очень молодая технология, и она продолжает активно развиваться. Будут улучшения и в сторону улучшения качества, и в сторону уменьшения размера.
Все примеры PDF, приведённые в этой статье, получены с помощью ABBYY FineReader Engine 10, настройки по умолчанию.
Читайте также:
- Базовый (стандартный). Отображает изображение после его полной загрузки. Данный формат JPEG распознается почти всеми веб-браузерами.