Какой формат лучше всего использовать для экспорта документов в файл
Говоря о текстовых редакторах, мы сразу представляем корифея, как Microsoft Word, который на многие годы занял пьедестал среди офисных приложений. И хотя, его первая версия появилась еще в 1986 году для платформы IBM, настоящую популярность он получил в девяностые уже среди пользователей Windows. Как и все продукты компании Microsoft в те времена, Word имел свой собственный закрытый формат документов DOC. Однако монополия на формат doc многих не устаивала, и на волне развития движения open source в 2000-ые появился альтернативный текстовый процессор с открытым форматом odt. В 2006-ом он получил международный стандарт ISO/IEC 26300.
И не смотря на множество негатива в его сторону, он получил популярность среди любителей программного обеспечения с открытым исходным кодом. Но попасть на рынок корпоративных клиентов этому формату все же не удалось. Слишком долго Microsoft был доминирующим продуктом в сфере офисного ПО. Огромное количество документов было создано в формате doc и огромное количество пользователей было обучено работе с Word.
Тем не менее, Microsoft пришлось ответить на появление нового открытого формата, и в версии MS Office 2007 появляется новый открытый формат DOCX. Назначение его ничем не отличается от DOC, но по своей сути это уже совсем другой формат, использующий принципы ODT. В это же время Microsoft снял завесу таинства со своего уже устаревающего формата DOC. Более того, в последующих версиях, MS Word уже поддерживал и ODT. Но и посессорные продукты не остались в стороне. Сейчас уже любой «уважающий себя» текстовый процессор поддерживает все три формата.
Теперь давайте немного подробнее рассмотрим каждый из этих форматов.
Формат DOC
Его название — это не аббревиатура, а сокращение от document. Этот формат появился еще в начале 90х и до сих пор остается в строю. Хотя в 2007 году он потерял актуальность в связи с появлением нового, целевого формата docx. Тем не менее, после раскрытия спецификаций этого формата в 2007ом, его стали поддерживать все современные текстовые процессоры, потому что к этому моменту накопилось огромное количество документов doc.
Его внутреннее устройство довольно сложное и представляет собой целую файловую систему. Это двоичный файл, и открыть его можно только в специальном текстовом процессоре, таком как MS Word или OpenOffice Text. Формат doc позволяет хранить внутри документа изображения, мультимедиа и другие файлы, но главное его достоинство – поддержка каскадных стилей.
Этот формат расширяет возможности rtf и позволяет использовать каскадные стили, таблицы, разметку листа, макросы, форматирование документа, изображения, диаграммы, различные метаданные. Таким образом, он покрывает большинство потребностей пользователей для электронных документов.
Формат ODF
Как уже говорилось выше, этот формат был создан альтернативой doc. Над созданием стандарта трудилось множество организаций, входивших в сообщество OASIS. И в 2006 году был принят его стандарт ISO/IEC 26300.
Документ основан на языке разметки XML, помещенный в ZIP архив. Помимо самого документа в архив включены файлы, на которые ссылается документ (рисунки), метаданные и др. Но благодаря использованию архивации, файл формата odf получается очень легковесным, по сравнению с doc. Раз уж мы говорим о текстовом процессоре, то правильным будет говорить odt, а не odf. Ведь ODF отписывает целое семейство форматов: для текстового процессора - odt, для табличного процессора ods, для электронных презентаций – odp.
Нативным (разработанным именно для него) офисным решением, созданным под формат ODF считается OpenOffice. Также, как и Microsoft Office он включает в себя целый набор офисных программ для работы с: текстом, таблицами, презентациями, векторной графикой, базой данных и формулами.
Ранее мы уже отмечали, что формат ODT поддерживают множество текстовых процессоров, как MS Word, так и опен сорс решения LibreOffice, OpenOffice, и бесплатный Google Document.
Естественно, первая генерация формата ODF 1.0 имела свои недостатки, например:
- Нет описания спецификации макросов;
- Нет описания применения цифровых подписей, хотя офисный пакет позволяет их использовать;
- В презентации нельзя вставлять таблицы, хотя MS PowerPoint это позволяет;
- Нет стандарта языка формул.
Некоторые из них были исправлены в версии 1.2. Однако основным недостатком по мнению пользователей является невозможность корректно воспроизводить документы формата doc, созданные ранее в MS Office. То есть они, конечно, открываются, но выглядят не так, как в нативной программе. А ведь к моменту появления OpenOffice большинство электронных документов было именно в формате doc. Но с форматом docx дела обстоят значительно лучше.
Так или иначе, но Microsoft Office практически не уступил своих позиций на рынке, а благодаря появлению открытого формата docx завоевал доверие сторонников open source.
Формат DOCX
Формат DOCX, он же Office Open XML, он же Microsoft Open XML, он же Office Open XML. Был создан в 2007 году в ответ на появление открытого ODF и использует тот же принцип создания файла – zip архив, в который помещается xml самого документа и файлы, на которые ссылается документ (изображения), а также файлы с метаданными. Преимуществом перед ODF можно назвать мощный бэкенд в виде MS Office. Миллионы пользователей не хотели бы отказываться от удобного инструмента ради перехода на бесплатный формат. А ведь закрытый формат doc обязывал корпоративных клиентов платить немало денег Американской корпорации. Таким образом, Microsoft сохранил своих клиентов, которые «поглядывали» в сторону ODF.
DOCX стандартизирован: он пользуется спецификациями ECMA-376, ISO/IEC 295000 Transitional и ISO/IEC 29500 Strict.
Сравнение
И если формат doc конструктивно отличается от docx, то docx и odt по сути братья. Оба они представляют собой zip-контейнеры с xml документами внутри. Каждый из них имеет свои плюсы и минусы. Но оба они превосходят формат doc хотя бы по критерию размер файла. Благодаря архивированию содержимого документа, размер файла получается значительно меньше – в 2-3 раза в зависимости от количества мультимедиа и графического контента.
Какой же из двух форматов предпочесть, docx или odt. Хотя текстовые процессоры обеспечивают поддержку форматов конкурентов, все же их отображение отличается не в лучшую сторону от оригинала. Поэтому нельзя сказать, что есть универсальное решение для всех форматов. Придется выбирать формат из сферы применения. Если речь идет о крупных предприятиях, которые использовали раньше MS Office, то очевидно, они имеют большой архив документов в формате doc да и обмен документами с другими предприятиями производится скорее всего в формате docx. Никто лучше MS Word не сможет отображать документы в собственных форматах, по крайней мере на текущий момент. В таком случае предпочтительно и впредь использовать MS Word, с форматом docx.
Если ваша цель уйти от платного офисного программного обеспечения и вас не сильно беспокоит совместимость форматов, то odt вполне способен заменить и doc, и docx. Многие крупные предприятия уже перешли на OpenOffice, а значит эта задача вполне посильная.
DOCX и ODT в генераторе отчетов
Так выглядит оригинальный отчет, который мы будем экспортировать в оба этих формата:
Давайте сделаем экспорт отчета в формат Microsoft Word (docx):
Вот, как он выглядит в MS Word:
А это экспорт в формат odt при просмотре в MS Word:
Экспорт в DOCX почему-то имеет мелкие шрифты внутри таблиц, но рамка соответствуют оригинальному отчету.
ODT оказался ближе к оригиналу по размеру шрифтов, но рамки никуда не годятся. Обратите внимание, что Word открыл odt с несколько худшим форматированием, чем OO Writer.
Также, как отображение документов одного формата в разных программах не одинаково, так же и генератор отчетов преобразует отчет в разные форматы по-разному.
Из всего вышерассмотренного можно сделать вывод, что даже использование одного формата не даст одинаково выглядящего документа в разных текстовых процессорах из-за разной реализации. Поэтому лучше использовать текстовый редактор с нативным форматом и не зацикливаться на универсальности.
В таблице ниже перечислены различные виды документов, которые можно сохранять в приложении Word.
Формат файла
Документ Word (DOCX).
Используемый по умолчанию XML-формат документов Word 2008 для Mac, Word для Mac 2011, Word 2016 для Windows, Word 2007 для Windows, Word 2010 для Windows, Word 2013 для Windows и Word 2016 для Windows.
Документ Word 97–2004 (DOC)
Формат документов, совместимый с версиями от Word 98 до Word 2004 для Mac и от Word 97 до Word 2003 для Windows.
Шаблон Word (DOTX).
Сохранение документа в виде XML-шаблона, на базе которого можно создавать новые документы. Сохранение содержимого документа и его параметров, в том числе стилей, разметки страниц, элементов автотекста, пользовательских сочетаний клавиш и меню.
Шаблон Word 97–2004 (DOT)
Сохранение документа в виде шаблона, на основе которого можно создавать новые документы. Сохранение содержимого документа и его параметров, в том числе стилей, разметки страниц, элементов автотекста, пользовательских сочетаний клавиш и меню. Совместим с версиями Word 97–2003 для Windows и Word 98–2004 для Mac.
Экспорт содержимого и форматирования документа в формате, распознаваемом и читаемом другими приложениями, включая совместимые программы Майкрософт.
Обычный текст (TXT)
Экспорт содержимого документа в текстовый файл и сохранение текста без форматирования. Этот формат следует выбирать лишь в том случае, если целевая программа не способна читать файлы других доступных форматов. В этом формате используется расширенный набор символов ASCII для Mac.
Сохранение документа в формате, предназначенном для просмотра в Интернете. HTML — это стандартный веб-формат, который отображается в браузерах Macintosh и Windows.
Экспорт документа в PDF-файл, который выглядит одинаково на компьютерах Macintosh и Windows.
Документ Word с поддержкой макросов (DOCM)
Формат документов на основе XML, в котором сохраняется код макросов VBA. Макросы VBA выполняются в Word 2016 для Mac и Word для Mac 2011, но не в Word 2008.
Шаблон Word с поддержкой макросов (DOTM)
Сохранение документа в виде XML-шаблона с кодом макросов VBA. Макросы VBA выполняются в Word 2016 для Mac и Word для Mac 2011, но не в Word 2008.
XML-документ Word (XML)
Экспорт содержимого документа в XML-файл. Преобразование всех инструкций форматирования и текста в формат XML. Совместим с Word 2007 для Windows.
XML-документ Word 2003 (XML)
Экспорт содержимого документа в XML-файл. Преобразование всех инструкций форматирования и текста в формат XML. Совместим с Word 2003 для Windows.
Веб-страница в одном файле (MHT)
Сохранение документа в формате, предназначенном для просмотра в Интернете, с созданием единого файла со всеми элементами страницы, такими как графические объекты. Используется интернет-стандарт MIME HTML.
Шаблон документа Word (DOC)
Сохранение документа с пометкой "Шаблон" для системы поиска. При открытии такого файла будет открываться новый документ без названия.
Настраиваемый словарь (DIC)
Сохранение содержимого документа в качестве файла словаря, предназначенного для хранения слов и терминов, которые не входят в основной словарь.
Словарь исключений (DIC)
Сохранение содержимого документа в качестве файла словаря, предназначенного для хранения предпочтительных вариантов правильно написанных слов. Выбирайте этот вариант, если нужно сохранить в словаре исключений слово наподобие "нуль", чтобы приложение Word не помечало его как неправильно написанное.
Совместимый с Word 4.0–6.0/95 (RTF)
Этот формат RTF совместим с версиями от Word 4.0 до Word 6.0 для Mac, а также с Word 6.0 и Word 95 для Windows.
Тема Office (THMX)
Сохранение шрифта, цветовой схемы и фона файла для использования в качестве новой темы.
Чтобы применить к документу тему из другого документа, на вкладке Главная в разделе Темы выберите команду Обзор тем. Чтобы сохранить измененную тему как новую, на вкладке Главная в разделе Темы выберите команду Сохранить тему.
Может быть не совсем в тему. Но у меня выявился такой баг при работе с MS офисом 2013. Подготовил файл, в котором была копия абзаца из Википедии. Случайно обратил внимание, что при печати этот абзац не печатался. Стал изучать подготовленный файл, этот абзац как-то странно подчеркнут, не отражаемо при печати. Попытки найти, что это означает, не увенчалась успехом. Решил просто перебить этот текст. Кстати OpenOffice вообще не показывает этот абзац.
Может быть это связано с конвертированием из HTML в Doc. В HTML есть возможности запретить копирование текста.
Комментарий очень даже по теме. В нем описана очень типичная ситуация.
На самом деле, преимущества электронных документов базируются на том, что они – намного более сложная сущность, чем традиционные бумажные документы. Но чтобы эта более сложная сущность давала реальные преимущества, нужно использовать более сложные, более изощренные инструменты и технологии. Нужна много более сложная научная теория.
Что сложнее – телега с лошадью или современный автомобиль? Конечно же, автомобиль. Но только для его создания человечеству пришлось провести огромный комплекс научных исследований, создать качественно новые инструменты, технологии, материалы. И в результате получилась штука очень простая и удобная. Намного более эффективная. И намного более массовая.
Вот и для электронных документов: чтобы они полностью проявили свой потенциал, нужна качественно иная научная проработка, новые технологии, инструменты.
Инструменты и технологии у нас есть. А вот научно-методической проработки теории документов, которая должна лечь в основу нормативно-законодательных требований, у нас как не было, так и нет.
Мы к электронным документам до сих пор применяем "бумажную" теории, созданную несколько веков назад. С помощью, пилы, топора и молотка можно сделать телегу. А можно ли с их помощью сделать автомобиль?
Посмотрите на наши законы относительно электронных документов: все они сводятся к вопросу использования электронно-цифровой подписи. А разве документ состоит только из ЭЦП? Но какова цена документу, если никто не сможет понять его содержание? Или, что может быть еще хуже, понять неправильно…
Электронный документ не может существовать в отрыве от инструментов, с помощью которых человек работает с документом. Собственно, так было и в случае с бумагой, но там нужны были относительно простые инструменты (зрение, умение читать, знать язык, очки…). И в бумажные были проблемы с пониманием содержания документа – например, при переводе с одного языка на другой. Дайте перевести одну и ту же фразу с английского на русский десяти переводчикам, и вы, скорее, всего получите десять разных результатов. Какой же из них считать самым адекватным?
С электронными документами все происходит точно так же: идет перевод с машинного языка на человеческий. Где гарантии, что перевод сделан правильно?
А раз так, то вытекает один базовый вывод: нужно использовать наиболее простые внутренние форматы, с которыми смогут гарантированно работать самые простые инструменты. Нужны такие форматы, для которых алгоритм преобразования с машинного на человеческий был бы самым простым и самым контролируемым.
А раз так, то самыми надежными форматами для текстовых документов является TXT, а для графических – BMP (точная по-пиксельная копия).
Импорт и экспорт позволяют различным компьютерным программам читать файлы друг друга.
Экспорт файла
Большинство компьютерных программ имеют свой собственный способ организации и кодирования данных в файлы, которые они сохраняют. Они могут распознавать свои собственные файлы, но не файлы из другой программы. Чтобы экспортировать файл, компьютер должен сохранить данные в формате, который распознает другая программа. Программисты должны встроить эту возможность в саму программу, чтобы программы могли экспортировать в некоторые форматы файлов, а не в другие.
Импорт файла
Чтобы импортировать файл, программа должна иметь возможность распознавать и декодировать формат файла, отличный от своего собственного. Опять же, это возможность, которая должна быть встроена в программу. Некоторые форматы настолько распространены, что почти все программы могут их импортировать; например, большинство программ обработки текста могут читать текстовые файлы ASCII (файлы .txt), а большинство электронных таблиц могут читать файлы ASCII с разделителями-запятыми (файлы .csv). Многие программы написаны для импорта файлов их основных конкурентов. Например, OpenOffice Calc может импортировать файлы, созданные в Microsoft Excel.
Импорт со сканеров и камер
Другим типом функции, обычно классифицируемой как импорт, является считывание изображения непосредственно в документ со сканера или камеры. В этом случае программа считывает данные непосредственно со сканера в файл, не сохраняя его сначала как файл другого типа. Сканеры, которые могут выполнять оптическое распознавание символов или распознавание текста, также могут отправлять текст непосредственно в файл.
Что это значит, когда телефон говорит, что набранный вами номер не принимает звонки в это время?
Как импортировать или экспортировать закладки при использовании Internet Explorer
Как импортировать закладки из других браузеров в Internet Explorer. Как экспортировать избранное из Internet Explorer, чтобы вы могли импортировать его в другой веб-браузер.
Простые вопросы: что такое прокси-сервер и что это значит?
Что такое прокси? Что означает прокси-сервер? Для чего используется прокси-сервер? Должен ли я использовать прокси-сервер? Преимущества использования прокси-сервера и проблемы, которые он может создать.
Читайте также: