Загруженный файл не соответствует формату pdf a iso 19005 1
PDF / A является ISO -standardized версии Portable Document Format (PDF) специализированной для использования в архивном и долгосрочном хранении в электронных документах . PDF / A отличается от PDF тем, что запрещает функции, непригодные для долгосрочного архивирования, такие как связывание шрифтов (в отличие от встраивания шрифтов ) и шифрование. Требования ISO для средств просмотра файлов PDF / A включают рекомендации по управлению цветом , поддержку встроенных шрифтов и пользовательский интерфейс для чтения встроенных аннотаций .
СОДЕРЖАНИЕ
Стандарты
Задний план
PDF - это стандарт кодирования документов в распечатанном виде, который можно переносить между системами. Однако пригодность файла PDF для архивного хранения зависит от параметров, выбранных при создании PDF: в первую очередь, от того, нужно ли встраивать необходимые шрифты для визуализации документа; использовать ли шифрование; и следует ли сохранять дополнительную информацию из исходного документа помимо той, которая необходима для его печати.
PDF / A изначально был новым совместным мероприятием Ассоциации поставщиков технологий печати, публикации и преобразования ( NPES ) и Ассоциации AIIM по управлению информацией и изображениями в сотрудничестве с Adobe для разработки международного стандарта, определяющего использование формата переносимых документов. (PDF) для архивирования документов. Цель состояла в том, чтобы удовлетворить растущую потребность в электронном архивировании документов таким образом, чтобы обеспечить сохранность их содержимого в течение длительного периода времени и гарантировать, что эти документы можно будет извлекать и отображать с последовательным и предсказуемым результатом в будущем. . Эта потребность существует в самых разных правительственных, промышленных и академических сферах по всему миру, включая правовые системы, библиотеки, газеты и регулируемые отрасли.
Описание
Стандарт PDF / A не определяет стратегию архивирования или цели архивной системы. Он определяет «профиль» электронных документов, который гарантирует, что документы могут быть воспроизведены точно так же с использованием различного программного обеспечения в ближайшие годы. Ключевым элементом этой воспроизводимости является требование, чтобы документы PDF / A были на 100% автономными. Вся информация, необходимая для отображения документа таким же образом, встроена в файл. Это включает, но не ограничивается, все содержимое (текст, растровые изображения и векторная графика), шрифты и информацию о цвете. Документу PDF / A не разрешается полагаться на информацию из внешних источников (например, программы шрифтов и потоки данных), но он может включать аннотации (например, гипертекстовые ссылки), которые ссылаются на внешние документы.
К другим ключевым элементам соответствия PDF / A относятся:
- Аудио и видео контент запрещен.
- Запрещены запуски JavaScript и исполняемых файлов.
- Все шрифты должны быть встроены, а также должны быть встраиваемыми на законных основаниях для неограниченного универсального рендеринга. Это также относится к так называемым стандартным шрифтам PostScript, таким как Times или Helvetica .
- Цветовые пространства указаны независимо от устройства.
- Шифрование запрещено.
- Требуется использование стандартных метаданных.
- Ссылки на внешний контент запрещены.
- LZW запрещен из-за ограничений интеллектуальной собственности. Модели сжатия изображений JPEG 2000 не допускаются в PDF / A-1 (на основе PDF 1.4), поскольку это было впервые представлено в PDF 1.5. Сжатие JPEG 2000 разрешено в PDF / A-2 и PDF / A-3.
- Прозрачные объекты и слои (необязательные группы содержимого) запрещены в PDF / A-1, но разрешены в PDF / A-2.
- Положения для цифровых подписей в соответствии со стандартом PAdES ( расширенные электронные подписи PDF ) поддерживаются в PDF / A-2.
- Встроенные файлы запрещены в PDF / A-1, но PDF / A-2 позволяет встраивать файлы PDF / A, облегчая архивирование наборов документов PDF / A в один файл. PDF / A-3 позволяет встраивать файлы любого формата, такие как XML, CAD и другие, в документы PDF / A.
- Использование форм XML Forms Architecture (XFA) на основе XML запрещено в PDF / A. (Данные формы XFA могут быть сохранены в файле PDF / A-2 путем перехода от ключа XFA к дереву имен, которое само является значением ключа XFAResources словаря имен словаря каталога документов.)
- Поля интерактивной формы PDF должны иметь словарь внешнего вида, связанный с данными поля. При визуализации поля следует использовать словарь внешнего вида.
Уровни соответствия и версии
PDF / A-1
Часть 1 стандарта была впервые опубликована 28 сентября 2005 г. и определяет два уровня соответствия для файлов PDF:
- PDF / A-1b - соответствие уровню B (базовый)
- PDF / A-1a - соответствие уровню A (доступный)
Соответствие уровню B требует только соблюдения стандартов, необходимых для надежного воспроизведения внешнего вида документа, в то время как соответствие уровню A включает все требования уровня B в дополнение к функциям, предназначенным для улучшения доступности документа .
Дополнительные требования уровня А:
- Спецификация языка
- Иерархическая структура документа
- Отмеченные фрагменты текста и описательный текст для изображений и символов
- Отображение символов в Unicode
Соответствие уровня A было предназначено для повышения доступности соответствующих файлов для пользователей с физическими недостатками, позволяя вспомогательному программному обеспечению, например программам чтения с экрана , более точно извлекать и интерпретировать содержимое файла. Более поздний стандарт, PDF / UA , был разработан для устранения того, что считалось некоторыми недостатками PDF / A, заменив многие из его общих рекомендаций более подробными техническими спецификациями.
PDF / A-2
Часть 2 стандарта, опубликованная 20 июня 2011 г., касается некоторых новых функций, добавленных в версиях 1.5, 1.6 и 1.7 Справочника PDF. Файлы PDF / A-1 не обязательно будут соответствовать PDF / A-2, а файлы, совместимые с PDF / A-2, не обязательно будут соответствовать PDF / A-1.
Часть 2 стандарта PDF / A основана на PDF 1.7 (ISO 32000-1), а не на PDF 1.4, и предлагает ряд новых функций:
- Сжатие изображений JPEG 2000 .
- поддержка эффектов прозрачности и слоев.
- встраивание шрифтов OpenType .
- положения о цифровых подписях в соответствии со стандартом PDF Advanced Electronic Signatures - PAdES .
- возможность встраивания файлов PDF / A для облегчения архивирования наборов документов в один файл.
Часть 2 определяет три уровня соответствия. PDF / A-2a и PDF / A-2b соответствуют уровням соответствия a и b в PDF / A-1. Новый уровень соответствия, PDF / A-2u, представляет собой соответствие Уровню B (PDF / A-2b) с дополнительным требованием, чтобы весь текст в документе имел отображение Unicode.
PDF / A-3
Часть 3 стандарта, опубликованная 15 октября 2012 г., отличается от PDF / A-2 только в одном отношении: она позволяет встраивать файлы произвольных форматов (например, XML, CSV, CAD, текстовые документы, электронные таблицы и другие) в документы, соответствующие формату PDF / A.
PDF / A-4
Часть 4 стандарта, основанная на PDF 2.0, была опубликована в конце 2020 года.
Как создать файл PDF / A
Архивы иногда запрашивают у своих пользователей отправку файлов PDF / A. Таким образом, они предоставляют своим пользователям информацию о том, как конвертировать их файлы в формат PDF / A. Существует несколько методов с использованием стандартного программного обеспечения, которые отличаются временем вычислений, а также сохранением ссылок, уравнений, векторных графиков и специальных символов.
Когда документы конвертируются в PDF / A, необходима визуальная проверка, поскольку ошибки в визуальном содержании являются обычным явлением. В тестовой выборке 11 процентов созданного документа PDF / A-1b содержали визуальные артефакты. Эти ошибки воспроизводимости включали проблемы с векторной графикой (прозрачные объекты), потерю ссылок, потерю другого содержимого документа (нечитаемые символы, отсутствующий текст, отсутствие части документа), обновленные поля (отражающие время или папку преобразования) и орфографические ошибки. Таким образом, сами архивы обычно не конвертируются в PDF / A. Вместо этого некоторые архивы просят своих пользователей предоставить документ PDF / A. Типичные настройки компьютера предоставляют несколько методов преобразования документов в формат PDF / A с различными плюсами и минусами.
Преобразование простого PDF (до версии 1.4) в PDF / A-2 обычно работает должным образом, за исключением проблем с глифами . По данным ассоциации PDF Association, «Проблемы могут возникать до и / или во время создания PDF-файлов. Файл PDF / A может быть формально правильным, но все еще содержать неправильные глифы. Только тщательная визуальная проверка может выявить эту проблему. Поскольку проблемы с генерацией также влияют на Отображение Unicode, проблема привлекает внимание, когда выполняется визуальная проверка извлеченного текста. В PDF / A использование текста / шрифта указывается достаточно однозначно, чтобы гарантировать, что оно не может быть неправильным. Если средства просмотра или принтеры не предлагают полную поддержку для систем кодирования это может привести к проблемам с PDF / A ". Это означает, что для того, чтобы документ полностью соответствовал стандарту, он будет правильным внутри, в то время как система, используемая для просмотра или печати документа, может дать нежелательные результаты.
Документ, созданный с помощью преобразования оптического распознавания символов (OCR) в PDF / A-2 или PDF / A-3, не поддерживает этот notdefglyph флаг. Следовательно, этот тип преобразования может привести к необработанному содержимому.
Стандартные документы PDF / A можно создавать с помощью следующего программного обеспечения: SoftMaker Office 2021, MS Word 2010 и новее, Adobe Acrobat Distiller, PDF Creator, OpenOffice или LibreOffice с версии 3.0, LaTeX с надстройками pdfx или pdfTeX или с помощью виртуального PDF принтер (Adobe Acrobat Pro, PDF24, FreePDF + Ghostscript).
Удостоверение личности
Документ PDF / A может быть идентифицирован как таковой с помощью специфичных для PDF / A метаданных, расположенных в пространстве имен "http://www.aiim.org/pdfa/ns/id/". Эти метаданные представляют собой заявление о соответствии; сам по себе он не обеспечивает соответствия:
- PDF-документ может быть PDF / A-совместимым, за исключением отсутствия метаданных PDF / A. Это может произойти, например, с документами, которые были созданы до определения стандарта PDF / A авторами, осведомленными о функциях, которые представляют проблемы с долгосрочным сохранением.
- документ PDF может быть идентифицирован как PDF / A, но может неправильно содержать функции PDF, не разрешенные в PDF / A; следовательно, документы, которые заявляют, что они соответствуют требованиям PDF / A, должны быть проверены на соответствие PDF / A.
Проверка
Проверка документов PDF / A предпринимается, чтобы выявить, действительно ли созданный файл является файлом PDF / A или нет. К сожалению, валидаторы PDF / A часто не соглашаются с этим, поскольку интерпретация стандартов PDF / A не всегда ясна.
Набор тестов Isartor
Отраслевое сотрудничество в рамках оригинального центра компетенции PDF / A привело к разработке Isartor Test Suite в 2007 и 2008 годах. Набор тестов состоит из 204 файлов PDF, специально созданных для систематического несоблюдения каждого из требований соответствия PDF / A-1b, что позволяет разработчики должны проверить способность своего программного обеспечения проверять соответствие самому базовому уровню соответствия стандарту. К середине 2009 года набор тестов уже заметно изменил общее качество программного обеспечения для проверки PDF / A.
veraPDF
Консорциум veraPDF, возглавляемый Open Preservation Foundation и PDF Association, был создан в ответ на вызов PREFORMA Европейской комиссии по разработке валидатора с открытым исходным кодом для формата PDF / A. PDF Association создала техническую рабочую группу по валидации PDF в ноябре 2014 года, чтобы сформулировать план разработки поддерживаемого отраслью валидатора PDF / A.
Консорциум veraPDF впоследствии выиграл этап 2 контракта PREFORMA в апреле 2015 года. Разработка продолжалась в течение 2016 года, при этом этап 2 был завершен по графику к декабрю 2016 года. Тестирование и приемка этапа 3 завершились в июле 2017 года. VeraPDF теперь охватывает все части ( 1, 2 и 3) и уровни соответствия (a, b, u) PDF / A.
veraPDF доступен для установки в Windows, macOS или Linux с помощью парсера PDF на основе PDFBox или "Greenfields".
Программы для просмотра PDF / A
Спецификация PDF / A также устанавливает некоторые требования для соответствующей программы просмотра PDF / A, которая должна
- игнорировать любые данные, не описанные стандартами PDF и PDF / A;
- игнорировать любую информацию о линеаризации, предоставленную файлом;
- используйте только встроенные шрифты (а не любые локально доступные, замененные или смоделированные шрифты);
- отображение только с использованием встроенного цветового профиля;
- убедитесь, что поля формы не изменяют визуализированное представление и отображаются без учета данных формы;
- убедитесь, что аннотации отображаются единообразно.
При обнаружении файла, который заявляет о соответствии PDF / A, некоторые программы просмотра PDF по умолчанию переходят в специальный «режим просмотра PDF / A», чтобы соответствовать требованиям читателя. Например, Adobe Acrobat и Adobe Reader 9 включают предупреждение, чтобы сообщить пользователю, что режим просмотра PDF / A активирован. Некоторые программы просмотра PDF позволяют пользователям отключать режим просмотра PDF / A или удалять информацию PDF / A из файла.
Прием
Документ PDF / A должен включать все используемые шрифты; соответственно, файл PDF / A часто будет больше, чем эквивалентный файл PDF, не содержащий встроенных шрифтов.
Некоторые архивисты выразили опасения, что PDF / A-3, который позволяет встраивать произвольные файлы в документы PDF / A, может привести к обходу процедур учреждения памяти и ограничениям на архивные форматы.
Ассоциация PDF обратилась к различным заблуждениям относительно PDF / A в своей публикации «PDF / A in a Nutshell 2.0».
Тогда место со ссылкой будет легче отыскивать поиском.
Более подробно в инструкциях:
George
I wish I was a monster you think I am
Возникла необходимость сдавать электронные экземпляры издания в PDF/A. В типографию отправляем PDF 1.3. Перепробовал стандартные средства Acrobat, Pitstop и solidconvertor. Результат один - ошибка и нет на выходе готового файла. Подскажите, как правильно сконвертировать PDF в PDF/A?
Using Save As to to Conform to PDF/A
Или у Вас save as выдаёт пустой файл?
Пример PDF давайте
LeonidB
Их бин
Я сегодня налетел с этим PDF/A на новогодние хотелки Российской государственной библиотеки по предоставлению им pdf-файлов.Вроде сами же пишут, что:
В качестве формата файла обязательного экземпляра печатных изданий в электронной форме должен использоваться общепринятый формат для долгосрочного архивного хранения документов PDF/A, основанный на стандарте ISO 19005:2005. Использование других форматов не допускается.
Но при этом не уточняют, какой именно PDF/A им нужен: PDF/A-1a или PDF/A-1b.
Ну ладно, думаю, раз вам всё равно, то сделал PDF/A-1b:
- поскольку PDF/A-1a почему-то не получалось сделать:
Смастерённый файл в формате PDF/A-1b Книжную палату вроде бы удовлетворил (по крайней мере, файл был залит без проблем), а вот Российская государственная библиотека закапризничала:
При проверке загруженного Вами файла произведения <. > автоматической системой были выявлены следующие ошибки:Формат файла не соответствует PDF/A, требуется устранить следующие несоответствия:
* Для всех подмножеств шрифта формата CIDFont, упомянутых в рамках соответствующего файла, словарь дескриптора шрифтов должен включать поток CIDSet, идентифицирующий, какие CIDs присутствуют во вложенном файле СIDFont, как описано в cпецификации PDF Таблица 5.20.
* Для каждого шрифта, вложенного в соответствующий файл, информация с шириной глифа, хранящаяся в записи Widths (ширина) словаря шрифта и во вложенной программе шрифта, должна быть последовательной
Не по теме:
Тут недавно обсуждалась ещё одна тема, связанная с хотелками РГБ по изображениям в обязательном pdf-файле издания. Оказывается, обсуждаемый там дурдом на этом не кончается, теперь ещё и шрифты в pdf'е их не удовлетворяют. Двадцать лет эти шрифты удовлетворяли все типографии, где печатались наши книги и журналы, а теперь вот умников из РГБ - не удовлетворяют.
Содержимое документа PDF можно проверить на соответствие критериям PDF/X, PDF/A, PDF/VT или PDF/E. Копию файла PDF можно сохранить в формате PDF/X, PDF/A или PDF/E, при условии, что он соответствует указанным требованиям. Например, при определенных обстоятельствах ICC-профиль, который описывает устройство назначения, необходим для совместимости с форматами PDF/X-1a, PDF/X-3 и PDF/X-4. Если документ не располагает встроенным профилем вывода ICC, то можно встроить профиль перед сохранением документа.
Преобразование файла PDF в соответствующий стандарту файл PDF выполняется с помощью Мастера стандартов. В ходе выполнения операций в этом Мастере даются пояснения по отдельным форматам. Если вы знакомы с этими стандартами, то для преобразования файла PDF можно использовать встроенный профиль или профиль, созданный с помощью мастера.
Также можно создать файл, совместимый с PDF/X и PDF/A, с помощью программы Acrobat Distiller .
Преобразование в PDF/X, PDF/A или PDF/E с помощью профиля
Выберите Инструменты > Допечатная подготовка.
Набор инструментов допечатной подготовки отображается на панели справа.
Нажмите Выполнить предпечатную проверку.
Отобразится диалоговое окно «Предпечатная проверка».
В диалоговом окне «Предпечатная проверка» выберите Стандарты PDF из раскрывающегося списка Библиотеки.
Перейдите на вкладку Профили.
Разверните совместимый профиль и выберите необходимый профиль. Например, в пункте «Соответствие PDF/A» выберите пункт Преобразовать в PDF/A-1b.
Нажмите Сохранить для преобразования файла в соответствии с выбранным профилем.
Преобразование в формат PDF/X, PDF/A или PDF/E
Выберите Инструменты > Стандарты PDF.
Выберите на панели справа Сохранить как PDF/A, Сохранить как PDF/X или Сохранить как PDF/E.
Выберите местоположение для сохранения файла и нажмите Сохранить.
Файлы PDF/X, PDF/A, PDF/VT и PDF/E могут быть созданы различными способами, например с использованием приложения Acrobat Distiller или команды «Файл» > Сохранить как «Другое»Если Вы открываете файл PDF, который соответствует одному из этих стандартов, то информацию о стандартах можно увидеть на панели «Навигация» (выберите Просмотр > Показать/Скрыть > Панели навигации, а затем нажмите Стандарты ). Меню и панель «Стандарты» доступны только в том случае, если файл PDF соответствует стандарту. Панель «Стандарты» присутствует во всех версиях (Acrobat Professional, Standard и даже Reader). Однако функция проверки подтверждения доступна только в Acrobat.
В сведениях о подтверждении указывается стандарт, использованный для создания файла, наименование стандарта ISO, а также отметка о том, был ли файл проверен на соответствие требованиям стандартов PDF/X, PDF/A, PDF/VT, PDF/UA или PDF/E. В информации о способах вывода указываются цветовые настройки, ассоциированные с данным файлом. Чтобы проверить файл на соответствие стандартам, нажмите на кнопку Проверить соответствие .
Вы можете удалить всю информацию о соответствии стандартам PDF/X, PDF/A или PDF/E, например условие вывода или ключ версии GTS_PDFX. Это полезно, если файл был изменен, если нужно начать заново или если ICC-профиль слишком увеличивает размер файла.
Выберите Инструменты > Допечатная подготовка.
Набор инструментов допечатной подготовки отображается на панели справа.
Нажмите Выполнить предпечатную проверку.
Отобразится диалоговое окно «Предпечатная проверка».
В диалоговом окне «Предпечатная проверка» выберите Стандарты PDF из раскрывающегося списка Библиотеки.
Перейдите на вкладку Исправления .
Раскройте группу Информация о документе и метаданные и выберите Удалить данные <название_стандарта>. Например, выберите «Удалить данные PDF/A».
Выберите местоположение для сохранения файла и нажмите Сохранить.
Если действие выполнено успешно, в диалоговом окне «Предпечатная проверка», на вкладке «Результаты» отобразится зеленый флажок. Если действие завершится с ошибкой, в диалоговом окне «Предпечатная проверка», на вкладке «Результаты» отобразится красный крестик.
Всем известный формат документов PDF (Portable Document Format) появился достаточно давно и заслуженно пользуется популярностью. Ведь вы можете создавать документы и открывать их на любой платформе будь то Windows, Linux, iOS и другие. Это преимущество способствует использованию PDF в качестве архивов документов. И все же не все документы подходят для архивов. Например, ваш документ содержит ссылки, использует специфические шрифты (которые не добавлены в сам документ), или использует мультимедиа данные. Такой документ нельзя назвать самодостаточным.
Специально для хранения документов в архивах был разработан стандарт PDF/A. Он также, как и обычный PDF сертифицирован (стандарт ISO 19005-1:2005). В чем же отличие формата PDF и PDF/A?
Главное требование, предъявляемое к формату PDF/A – гарантированная возможность воспроизводить документ через некоторое количество лет в том же виде. В первую очередь обеспечить это требование позволяет самодостаточность документа. То есть документ должен содержать все нужные данные (текст, изображения растровые и векторные, шрифты, данные о цвете) внутри себя и не иметь внешних ссылок.
Давайте рассмотрим по порядку что должно быть в документе и чего не должно быть.
- Вызов исполняемых файлов и кода javascript;
- Аудио и видео контент;
- Ссылки на внешние источники;
- Шифрование документа.
- Внедрять в документ шрифты;
- Использовать данные о цвете, определяемые независимым от устройства способом.
Таким образом мы получаем целостный самодостаточный документ, который не зависит от внешних данных. В любой момент вы сможете открыть такой документ стандартной программой-просмотрщиком. Гарантированное воспроизведение документа также обеспечивается международным стандартом.
Документ PDF/A будет иметь немного большие размеры по сравнению с PDF, это обусловлено наличием всех данных внутри него.
В настоящее время стандарт PDF/A набирает все большую популярность и активно применяется в Европе.
В стандарт PDF/A-2 добавлены некоторые функции, которые появились в PDF 1.5, 1.6, 1.7. PDF/A-2 имеет обратную совместимость с PDF/A -1, то есть все документы стандарта PDF / A-1 должны быть совместимы с PDF/A-2. Однако PDF/A-2 файлы не обязательно будут совместимы с PDF/A-1.
PDF / A-2 основан на PDF 1.7 (как определено в ISO 32000-1), который поддерживает ряд усовершенствований в документообороте, такие как сжатие JPEG2000, эффекты прозрачности и слоев, вложение OpenType шрифтов, а также положения для цифровых подписей в соответствии со стандартом подписи PDF Advanced Electronic.
PDF / A-2 также позволяет архивирование комплектов документов в виде отдельных документов в одном файле.
PDF/A-2 имеет следующие уровни соответствия:
- PDF / A-2a удовлетворяет всем требованиям в спецификации ISO 19005-2;
- PDF / A-2b более низкий уровень соответствия, охватывающий требование стандарта к внешнему виду документа, а не его структурные и семантические свойства.
PDF/A-3 отличается от PDF/A-2 одной важной особенностью. Поддержка встроенных файлов. Причем это могут быть не только другие PDF/A (поддерживается в PDF/A-2), но и любой другой файл. Это имеет важное значение для архивирования.
Как и PDF/A-2, стандарт PDF/A-3 определяет уровни соотвествия:
- PDF/A-3a PDF/а-3А удовлетворяет всем требованиям спецификации стандарта ISO 19005-3.
- PDF/A-3b соответствует минимальным требованиям необходимым для гарантированного отображения документа в первоначальном виде при долгом хранении.
В PDF/А-3 файла, любые вложенные файлы должны рассматриваться как «не архивные». Иными словами, внедренный файл считается временным и не стоит его рассматривать как файл для долгосрочного хранения. Только основного содержимого PDF документа предназначено для долгого хранения.
Итак, давайте все же рассмотрим на примере экспорт по стандарту PDF/A. Перед нами появляется окно настроек экспорта. Переходим на вкладку «Опции». Именно здесь мы можем выбрать стандарт PDF/A. Обратите внимание, что в выпадающем списке доступны 4 стандарта: PDF/A-2a, PDF/A-2b, PDF/A-3a и PDF/A-3b. Здесь нет PDF/A-1, т.к. он считается устаревшим.
Обратите внимание, когда мы выбрали опцию PDF/A, встроенные шрифты перестали быть доступны для редактирования. Теперь шрифты встроены по умолчанию. Это соответствует требованиям стандарта.
Перейдите к вкладке «Безопасность». Как видим, все опции выбраны и недоступны для редактирования.
Для получения документа в стандарте PDF/A, нажмите кнопку «ОК».
Мы продолжаем публикации о технологиях оптического распознавания (OCR, ICR) и понимания документов, разработанных специалистами компании Cognitive Technologies. Сегодня наш рассказ о технологиях оцифровки текстовых документов Cognitive PDF/A.
В бизнес-сфере достаточно часто приходится сканировать бумажные документы с целью последующей пересылки по электронной почте или архивного хранения. При качественном сканировании получившиеся изображения-образы зачастую оказываются достаточно большого размера. Например, документ формата А4, отсканированный в цветном режиме при разрешении 300 DPI, имеет размер порядка 25 Мб. Использование файлов таких больших размеров неэффективно в электронных архивах, поэтому все больший интерес обретают технологии сжатия получившихся электронных образов. Классические технологии сжатия изображений (JPEG, RLE, Deflate и т.п.) не применимы, так как в общем случае документы могут содержать как монохромный текст, так и полноцветные графические области. Алгоритмы сжатия изображений без потерь, результативные для монохромных текстов, неэффективны для полноцветной графики, в то время как сжатие с потерями демонстрирует высокие показатели для цветных изображений, однако сильно искажает текстовую информацию (Рис. 1). Поэтому обычно для сжатия изображений такого типа используют комбинированный подход.
Структурное сжатие изображений документов
Изложим идею структурного сжатия на примере изображения страницы журнала (Рис. 2). Классическая страница журнала может содержать фоновый рисунок, один или несколько текстовых блоков, графических элементов (фотографии, схемы, таблицы и пр.) и каких-то пометок. Основная идея структурного сжатия изображений такого рода заключается в выделении структурных блоков, объединение данных блоков в слои (т.е. «расслоение» изображения на текстовые, графические и прочие слои) и сжатие каждого слоя наиболее подходящим образом. Так изображение страницы журнала на Рис. 2 расслаивается на четыре слоя: фон, область черного текста, область синего текста и область с фотографией. Для сохранения максимального качества, текстовые слои следует сжимать алгоритмами сжатия без потерь (например, CCITT Group 4), в то время как для фотографии вполне допустимо применение методов сжатия с потерями (JPEG). Основное место в алгоритмах структурного сжатия отводится методам расслоения исходного изображения на текстовый и графический слои.
Высокую популярность данный подход получил сравнительно недавно. Одним из примеров, реализующих идею структурного сжатия, по праву можно считать формат DjVu.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и черно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие четкие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается еще сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования (алгоритмом IW44), а маска – алгоритмом JB2.
Несмотря на высокие коэффициенты сжатия изображений документов, DjVu обладает существенным недостатком: на сегодняшний день формат не стандартизован, что затрудняет его использование в качестве средства для создания электронных архивов. К тому же использование одинаковой схемы расслоения для всех типов документов не всегда оправдано, и даже иногда может приводить к значимому искажению документа. Дополнительно стоит отметить, что в формате полностью отсутствуют какие-либо средства обеспечения безопасности и конфиденциальности документов.
Технология Cognitive PDF/A
Опишем технологию Cognitive PDF/A, предназначенную для перевода бумажных документов в электронный вид, и процесс оцифровки в соответствии с предлагаемой технологией (Рис. 3).
Первым этапом обработки является расслоение исходного изображения. В результате появляются два новых изображения. Первое содержит области исходного изображения, соответствующие текстовой информации (текстовый слой), а второе – графическим элементам (графический слой).
В соответствии с архитектурой алгоритма, текстовый слой не должен содержать никаких лишних областей, кроме текстовых блоков. Следовательно, изображение текстового слоя может быть легко распознано без какой-либо предварительной подготовки с помощью внешних OCR-систем.
Последним действием является упаковка полученных слоев и распознанного текста в PDF/A. Графический и текстовый слой подвергаются соответствующему сжатию, а распознанный текст упаковывается таким способом, чтобы обеспечить максимальное удобство поиска и копирования информации в документе.
Таким образом, технология Cognitive PDF/A состоит из трех основных частей: расслоение исходного изображения, распознавание текстового слоя с помощью OCR-системы и компактная упаковка получившихся слоев и распознанного текста в PDF/A-файл. Рассмотрим эти части более подробно.
Алгоритм расслоения
Разные типы документов обладают различными особенностями. Например, для финансовых документов характерно наличие печатей, подписей и штампов, журнальные статьи могут иметь сложный многоцветный фон, в книги часто включают полноцветные графические элементы. Поэтому технологией Cognitive PDF/A предусматриваются уникальные схемы расслоения для каждого типа документа. Выбор наилучшей схемы может осуществляться с помощью алгоритмов предварительной идентификации типа документа. Далее, в качестве примеров, будут рассмотрены схемы расслоения для двух важных типов документов: страница книги и офисный документ.
Обычно страница книги содержит черный текст на белом фоне и, возможно, графические элементы: рисунки, схемы, графики и пр. (Рис. 4)
Обычно в книгах области текста и графики не пересекаются. Еще одной ключевой особенностью верстки книг является использование шрифтов близких линейных размеров. Опираясь на эти характерные черты, построим схему расслоения изображения страницы книги.
Шаг 1. Бинаризуем исходное изображение, тем самым преобразуем его в монохромный вид (Рис. 5а). Так как изображение в основном содержало черный текст на белом фоне, то процесс бинаризации не должен сильно сказаться на областях, содержащих текстовую информацию.Шаг 2. С помощью морфологической фильтрации «сольем» слова в единые компоненты связности. Обозначим через w и h характерные ширину и высоту символов соответственно. Заметим так же, что расстояние между буквами в слове сравнимо с толщиной штриха символа, а расстояние между словами близко ширине символа. Поэтому «склеим» каждое слово в отдельную компоненту связности, выполнив размыкание с окном (Рис. 5б).
Шаг 3. Построим гистограмму высот полученных компонент связности (Рис. 6). Так как весь текст на странице напечатан примерно одинаковым по размеру шрифтом, то компоненты связности, соответствующие словам образуют на гистограмме один или несколько четко выраженных максимумов. Поэтому, анализируя гистограмму, можно вычислить характерный размер шрифта hfont, которым набран текст на странице, и, соответственно, выделить область на изображении, соответствующую текстовой информации (области, соответствующие компонентам связности с высотой порядка hfont ).
Зная область расположения текста на исходном расположении, построим маску расслоения, после чего применим ее для получения графического и текстовых слоев (Рис. 7).
Поскольку для выделения текстовых блоков используется быстрые алгоритмы морфологической фильтрации с прямоугольным окном, то очень важно, чтобы текстовые блоки были выровнены относительно осей изображения. Поэтому перед морфологией выполняется «выравнивание» изображения.
Для цветных изображений финансовых документов (счет фактур, квитанций, договоров и пр.) не характерны перечисленные выше особенности изображения страницы книги, так как графические элементы (печати, подписи, рукописные пометки) часто накладываются на текстовые блоки (Рис. 8). Следовательно, использовать для расслоения вышеописанный алгоритм неразумно. Построим схему расслоения, опираясь на цветовые характеристики изображения. Цветовая насыщенность черного текста и белого фона близка к нулю, в то время как для синих печатей и подписей это значение велико. Принимая во внимание это свойство, построим следующую схему расслоения.
Шаг 1. Построим гистограмму цветовой насыщенности (Рис. 9), т.е. зависимость y=logNx, где Nx – количество пикселей изображения, насыщенность которых равна x.
Шаг 2. Заметим, что на гистограмме четко выделяются два класса: первый сформирован пикселями с малыми значениями цветовой насыщенности, второй – с большими значениями. Пиксели из первого класса составляют области изображения, соответствующие фону и черному тексту, из второго – графическую часть изображения. Найдем порог разделения двух классов t* методом Отсу.
Шаг 3. Расслоим исходное изображение следующим образом: пиксель сходного изображения (x,y) принадлежит текстовому слою (Рис. 10а), если значение его цветовой насыщенности меньше порогового s(x,y)<t*; иначе – пиксель (x,y) принадлежит графическому слою (Рис. 10б).
Распознавание текстового слоя
В результате расслоения мы уже получили изображения текстовых слоев, которые могут быть легко распознано без какой-либо предварительной подготовки с помощью внешних OCR-систем.
В программной реализации технологии Cognitive PDF/A в качестве OCR модуля используется система оптического распознавания текстов с открытым исходным кодом OCR CuneiForm.
Сжатие и упаковка в формат PDF/A
- Внедрение всех используемых шрифтов, в том числе шрифтов из списка «стандартных для PDF».
- Если PDF/A-файл содержит изображения, то обязательным является внедрение цветового профиля – файла, в котором содержится информация о том, как выводное устройство (монитор, принтер и пр.) должно передать цвет. Важным является тот факт, что включаемый цветовой профиль должен быть аппаратно-независимым.
- Обязательное наличие метаданных с указанием версии используемого формата, заголовка документа, списка авторов, краткого описания, даты создания и последней модификации файла документа, а также ключевых слова для осуществления поиска. Спецификацией PDF/A также оговорен формат представления метаданных – Adobe Extensible Metadata Platform (XMP).
Для увеличения коэффициента сжатия, графический и текстовый слои сжимаются разными способами. В силу специфики содержимого, графический слой приводится к разрешению 100 DPI и кодируется алгоритмом JPEG. Текстовый слой заключает в себе основную информацию документа, следовательно, текстовый слой сохраняется в исходном разрешении, а для кодирования используются алгоритм сжатия без потерь CCITT Group 4.
Экспериментальные результаты
Оценка эффективности технологии в автоматическом режиме представляется практически невозможной – ведь недостаточно сравнить лишь размер выходного качества, необходимо также сравнивать качество полученного «компактного электронного документа». Поэтому, фактически оценка производится органолептически (то есть, «на глазок»).
На Рис. 11 представлены некоторые тестовые изображения, которые были сжаты алгоритмами JPEG (уровень компрессии, при котором сохраняется читабельность), DjVu и Cognitive PDF/A. По результатам сравнения видно (см. Таблицу), что технология Cognitive PDF/A по степени сжатия на порядок обходит JPEG, однако проигрывает DjVu. Такую разницу в размере можно объяснить тем, что в файл в формате PDF/A помимо полезной информации (собственно изображений и распознанного текста) содержит также вспомогательные данные, необходимые для долгосрочного хранения. Не смотря на меньший размер файлов DjVu, качество сжатия офисных документов ниже, что особенно проявляется в районе печатей и подписей.
Изображение и результаты, представленные в этой таблице можно скачать по адресу: yadi.sk/d/7us8gghADHVrg
Полный текст статьи опубликован:
Усилин С.А., Николаев Д.П., Постников В.В. Cognitive PDF/A – технология оцифровки текстовых документов для публикации в Интернет и долговременного архивного хранения // Труды Института системного анализа РАН. Технологии программирования и хранения данных / под ред. Арлазаров В.Л., Емельянов Н.Е. М.: ЛЕНАНД, 2009. Т. 45. С. 159–173.
Читайте также: