Как удалить файл docx
Office 365 ProPlus переименован в Майкрософт 365 корпоративные приложения. Для получения дополнительной информации об этом изменении прочитайте этот блог.
Аннотация
В статье описываются способы выявления поврежденных документов в программе Word 2007 и ее более поздних версиях. Кроме того, в статье содержатся рекомендации по восстановлению текста и данных, содержащихся в выявленных поврежденных документах.
Данная статья рассчитана на начинающих пользователей компьютера и пользователей со средним уровнем подготовки. Для удобства выполнения описанных действий рекомендуется начать с распечатки этой статьи.
Обновление Microsoft Office и Windows
Многие проблемы с программным обеспечением могут быть решены путем обновления программ Microsoft Office и Windows.
Поврежденный документ или проблема с программным обеспечением?
Документ Word может быть поврежден по нескольким причинам, которые помешают вам открыть его. Такое поведение может быть вызвано повреждением документа или шаблона, на котором основан документ. Ниже перечислены некоторые типы такого поведения:
В некоторых случаях повреждение документа не является причиной подобного поведения. Важно определить, поврежден ли документ или проблема связана с программным обеспечением. Для устранения этих факторов выполните следующие действия.
- Убедитесь, что подобное поведение не наблюдается при работе с другими документами. Попробуйте открыть другие документы Word, чтобы увидеть, возникает ли та же проблема. Если они открываются правильно, то проблема может быть с документом Word.
- Убедитесь, что подобное поведение не наблюдается при использовании других программ Microsoft Office. Если это так, то проблема может быть с другим приложением или операционной системой.
Если при выполнении какого-либо из этих действий будет выявлено, что проблема заключается не в документе, необходимо устранить проблему с Word, набором Office или установленной на компьютере операционной системе.
Действия при невозможности открытия поврежденного документа
Попробуйте способы в указанном порядке. Если один не работает, попробуйте следующий.
Способ 1. Откройте поврежденный документ в черновом режиме без поврежденных ссылок.
Шаг 1. Настройка Word
- Запустите Word.
- На вкладке Вид в группе Представления выберите Черновик.
- Выберите меню «Файл», затем щелкните Настройки и Дополнительно.
- В разделе Отобразить содержимое документа отметьте пункты Использовать шрифт черновика в режимах отображения «Черновик» и «Разметка» и Показывать замещающие рамки рисунков.
- Прокрутите вниз до раздела Общее, снимите флажок с Автоматически обновлять связи при открытии, нажмите OK и закройте Word.
Шаг 2. Откройте поврежденный документ
- Запустите Word.
- Выберите меню «Файл», затем Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
Если документ открыть невозможно, закройте его, затем снова откройте с помощью способа 6 и восстановите документ. В противном случае перейдите к способу 2.
Способ 2: Вставьте документ как файл в новый документ.
Шаг 1. Создание нового документа
Шаг 2. Вставьте поврежденный документ в новый документ
На вкладке Вставка нажмите Вставка объекта, затем выберите Текст из файла.
В диалоговом окне Вставка файла найдите и выберите поврежденный документ. Затем выберите Вставить.
Может потребоваться повторно применить форматирование к последнему разделу нового документа.
Способ 3: Создание ссылки на поврежденный документ
Шаг 1. Создание нового документа
- В Word откройте меню Файл, затем выберите Создать.
- Выберите Новый документ, затем Создать.
- В новом документе введите «Это проверка».
- Выберите меню «Файл», затем Сохранить.
- Введите «Ссылка спасения», затем Сохранить.
Шаг 2. Создание ссылки
- Выберите текст, введенный на шаге 1-3.
- На вкладке Главная в группе Буфер обмена щелкните Копировать.
- Выберите меню «Файл», затем Создать.
- Выберите Новый документ, затем Создать.
- На вкладке Главная в группе Буфер обмена щелкните стрелку рядом с кнопкой Вставить, затем выберите Специальная вставка.
- Щелкните Вставить связь, затем Форматированный текст (RTF).
- Нажмите OK.
Шаг 3. Изменение ссылки на поврежденный документ
Щелкните связанный текст правой кнопкой мыши, выберите команду Объект связанного документа, затем Связи.
В диалоговом окне Связи выберите имя файла связанного документа и нажмите Изменить источник.
В диалоговом окне Изменить источник выберите документ, который не удается открыть, и нажмите Открыть.
Нажмите OK, чтобы закрыть диалоговое окно Связи.
В новом документе должны появиться сведения из поврежденного документа, если в нем находились данные или текст, которые можно было восстановить.
Щелкните связанный текст правой кнопкой мыши, выберите Объект связанного документа, затем Связи.
В диалоговом окне Связи нажмите кнопку Разорвать связь.
Способ 4: Использовать конвертер «Восстановление текста из любого файла»
У конвертера "Восстановление текста из любого файла" есть свои ограничения. Например, он не сохраняет форматирование документа. Кроме того, теряются все нетекстовые данные (рисунки, поля, графические объекты и прочие элементы). Поэтому верхние и нижние колонтитулы, сноски и текст полей сохраняются в виде обычного текста.
- В Word откройте меню «Файл», затем Открыть.
- В поле Тип файлов выберите Восстановление текста из любого файла(.).
- Выберите документ, текст которого необходимо восстановить.
- Выберите Открыть.
После восстановления документа с помощью конвертера «Восстановление текста из любого файла» некоторые двоичные данные не преобразовались. В основном это текст начала и конца документа. Необходимо удалить эти двоичные данные перед сохранения файла в качестве документа Word.
В пользовательском интерфейсе Word 2007 отсутствует кнопка «Файл». Вместо нее используйте кнопку Office и затем выполняйте необходимые указания.
Действия по устранению проблем, если поврежденный документ можно открыть
Способ 1. Скопируйте все содержимое, за исключением последнего знака абзаца, в новый документ.
Шаг 1. Создайте новый документ
- В Word откройте меню Файл на ленте и выберите пункт Создать.
- Выберите Новый документ, затем Создать.
Шаг 2. Откройте поврежденный документ
- Выберите меню «Файл» на ленте и выберите пункт Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
Шаг 3. Скопируйте содержимое документа и вставьте его в новый документ
Если документ содержит разрывы разделов, копируйте только текст между разрывами. Разрывы разделов не следует копировать, так как они могут повредить новый документ. При копировании и вставке между документами необходимо изменить вид документа на черновой режим, чтобы избежать переноса разрывов разделов. Для перехода в черновой режим на вкладке Вид в группе Представления документа щелкните Черновик.
- В поврежденном документе нажмите сочетание клавиш CTRL+END, затем нажмите сочетание клавиш CTRL+SHIFT+HOME.
- На вкладке Главная в группе Буфер обмена щелкните Копировать.
- На вкладке Вид в группе Окно щелкните Переключение окон.
- Щелкните новый документ, созданный в шаге 1.
- На вкладке Главная в группе Буфер обмена щелкните Вставить.
Если неисправность сохраняется, перейдите к способу 8.
Способ 2: Замените используемый документом шаблон
Шаг 1. Определите используемый документом шаблон
- Откройте поврежденный документ в приложении Word.
- Выберите меню «Файл» на ленте и выберите пункт Параметры.
- Выберите пункт Надстройки.
- В окне Управление щелкните Шаблоны в области Просмотр и управление надстройками Office.
- Выберите Выполнить. В окне Шаблон документа появится список шаблонов документа. Если отображенные шаблоны помечены как Обычный, перейдите к шагу 2. В противном случае перейдите к выполнению действия 3.
Шаг 2. Переименуйте общий шаблон (Normal.dotm)
- Закройте приложение Word.
- Нажмите Пуск.
- В своей операционной системе найдите normal.dotm. Этот шаблон обычно находится здесь: %userprofile%\appdata\roaming\microsoft\templates
- Щелкните правой кнопкой файл Normal.dotm и выберите Переименовать.
- Введите «Oldword.old» и нажмите клавишу ВВОД.
- Закройте проводник.
- Запустите приложение Word и откройте документ.
Шаг 3. Измените шаблон документа
Шаг 4. Проверьте изменение шаблонов.
- Запустите Word.
- Выберите меню «Файл» на ленте и выберите пункт Параметры.
- Щелкните поврежденный документ, затем выберите Открыть.
Если неисправность сохраняется, перейдите к способу 3.
Способ 3: Запустите программу Word с параметрами по умолчанию.
Для запуска Word с параметрами по умолчанию вы можете использовать параметр командной строки /a. При использовании параметра /a Word не загружает никакие надстройки. Кроме того, Word не использует имеющийся шаблон Normal.dotm. Перезапустите Word с помощью параметра /a.
Вариант 1. Запуск Word с параметром /a
Закройте приложение Word.
Нажмите Пуск и выберите пункт «Выполнить». В диалоговом окне «Выполнить» введите:
Этап 2. Открытие документа
- В Word откройте меню «Файл» на ленте и выберите пункт Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
Если неисправность сохраняется, перейдите к способу 4.
Способ 4: Изменение драйверов принтера.
Шаг 1. Попробуйте заменить драйвер принтера
- Найдите в вашей операционной системе меню «Устройства и принтеры».
- Нажмите Установка принтера.
- В диалоговом окне Установка принтера щелкните Добавить локальный принтер.
- Выберите Использовать существующий порт и нажмите кнопку Далее.
- В списке Изготовитель выберите Microsoft.
- Выберите Средство записи XPS-документов Microsoft и нажмите кнопку Далее.
- Выберите пункт Использовать уже установленный драйвер (рекомендуется) и нажмите кнопку Далее.
- Установите флажок Использовать в качестве принтера по умолчанию и нажмите кнопку Далее.
- Выберите Готово.
Шаг 2. Убедитесь, что изменение драйверов принтера привело к разрешению проблемы
- Запустите Word.
- Выберите меню «Файл» на ленте и выберите пункт Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
Если странное поведение не было устранено, перейдите к шагу 3.
Шаг 3. Переустановите исходный драйвер принтера.
Windows 10 и Windows 7
В своей операционной системе найдите «Принтеры».
Щелкните правой кнопкой мыши значок принтера по умолчанию и выберите команду Удалить.
Если система запросит пароль администратора или подтверждение, введите пароль или нажмите кнопку Продолжить.
Если будет предложено удалить все файлы, связанные с принтером, нажмите кнопку Да.
Щелкните Добавить принтер или сканер и следуйте инструкциям Мастера установки принтера для переустановки драйвера принтера.
Шаг 4. Убедитесь, что изменение драйверов принтера привело к разрешению проблемы
- Запустите Word.
- Выберите меню «Файл» на ленте и выберите пункт Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
Если неисправность сохраняется, перейдите к способу 5.
Способ 5. Попытка принудительного восстановления файла в Word.
Шаг 1. Восстановление документа
В Word откройте меню «Файл» на ленте и выберите пункт Открыть.
- В диалоговом окне Открыть выберите нужный документ Word.
- Щелкните стрелку рядом с кнопкой Открыть и выберите команду Открыть и восстановить.
Шаг 2. Убедитесь, что восстановление документа привело к разрешению проблемы
Убедитесь, что странное поведение больше не возникает. Если неисправность сохраняется, перезагрузите Windows и перейдите к способу 6.
Способ 6. Изменение формата документа с последующим преобразованием документа обратно в формат Word.
Шаг 1. Откройте документ
- Запустите Word.
- Выберите меню «Файл» на ленте и выберите пункт Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
Шаг 2. Сохраните документ в другом формате
- Откройте меню «Файл» на ленте и выберите пункт Сохранить как.
- Выберите Другие форматы.
- В списке Сохранение файла выберите Rich Text Format (*.rtf).
- Выберите Сохранить.
- Откройте меню «Файл» на ленте и выберите пункт Закрыть.
Шаг 3. Откройте документ, затем сконвертируйте его обратно в формат Word
- В Word выберите Файл, затем Открыть.
- Щелкните конвертированный документ, затем выберите Открыть.
- Выберите Файл, затем команду Сохранить как.
- Выберите Документ Word в поле Сохранить как.
- Переименуйте файл и нажмите Сохранить.
Шаг 4. Убедитесь, что конвертация формата файла решила проблему
Убедитесь, что странное поведение больше не возникает. Если проблема не устранена, попробуйте сохранить файл в другом формате. Повторите шаги 1 – 4, затем попробуйте сохранить файл в других форматах в следующем порядке:
- Веб-страница (.htm; .html)
- в любом другом формате обработки текста;
- в формате обычного текста (TXT).
При сохранении файлов в формате Обычный текст (.txt) вы можете устранить повреждение документа. Однако все форматирование документа, все макросы и рисунки при этом теряются. При сохранении файлов в формате обычного текста (.txt) необходимо повторно форматировать документ. Поэтому формат Обычный текст (.txt) необходимо использовать только в том случае, если другие форматы не разрешают проблему.
Если неисправность сохраняется, перейдите к способу 7.
Способ 7. Скопируйте неповрежденные части поврежденного документа в новый документ.
Шаг 1. Создайте новый документ
- В Word выберите Файл и щелкните пункт Создать.
- Выберите Новый документ, затем Создать.
Шаг 2. Откройте поврежденный документ
- Выберите Файл, затем Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
Шаг 3. Скопируйте неповрежденные части поврежденного документа, а затем вставьте их в новый документ
Если документ содержит разрывы разделов, копируйте только текст между разрывами. Разрывы разделов не следует копировать, так как они могут повредить новый документ. При копировании и вставке между документами необходимо изменить вид документа на черновой режим, чтобы избежать переноса разрывов разделов. Для перехода в черновой режим на вкладке Вид в группе Представления документа щелкните Черновик.
- В поврежденном документе найдите и выделите неповрежденню часть содержания документа.
- На вкладке Главная в группе Буфер обмена щелкните Копировать.
- На вкладке Вид в группе Окно щелкните Переключение окон.
- Щелкните новый документ, созданный в шаге 1.
- На вкладке Главная в группе Буфер обмена щелкните Вставить.
- Повторите шаги 3a – 3e для всех неповрежденных частей документа. Необходимо воссоздать поврежденные части документа.
Способ 8. Переключите представление документа и удалите поврежденное содержимое
В обрезанных документах, в которых отображаются не все страницы, можно переключить представление и удалить поврежденное содержимое.
Определите номер страницы с поврежденным содержимым, из-за которого документ обрезается.
- В Word выберите Файл, затем Открыть.
- Щелкните поврежденный документ, затем выберите Открыть.
- Прокрутите документ до той страницы, после которой он обрезается. Запомните содержимое этой страницы.
Переключите представление документа и удалите поврежденное содержимое.
- На вкладке Вид в группе Представления документа выберите элемент Веб-документ или Черновик.
- Прокрутите документ и найдите содержимое, после которого он обрезается.
- Выделите и удалите следующий абзац, таблицу или объект.
- На вкладке Вид в группе Представления документа выберите элемент Режим разметки. Переключайте представления и удаляйте содержимое до тех пор, пока документ не отобразится в полном виде в представлении Режим разметки.
- Сохраните документ.
Способ 9: Откройте документ с помощью блокнота
Если документ поврежден и ни один из предыдущих способов не работает, попробуйте восстановить его содержимое, открыв документ с помощью блокнота.
Используя этот метод, вы потеряете все форматирование. Целью является восстановление содержимого.
- Найдите поврежденный документ с помощью проводника Windows.
- Щелкните документ правой кнопкой мыши и выберите Открыть с помощью.
- Выберите Блокнот:
Документ откроется в Блокноте с дополнительным кодом и текстом вокруг содержимого.
Возможно, вам придется изменить тип файла с Текстовые документы (.txt) на Все файлы (.*).
Очистите текст, удаляя все или большинство дополнительных знаков.
Выберите Файл, затем Сохранить как. . Переименуйте документ, чтобы гарантировать, что вы не перезаписали поврежденный.
Вернитесь к Word и откройте новый документ. Как только документ открыт в Word, вы можете очистить его и попытаться повторно применить утерянный формат.
При удалении файл удаляется оттуда, где он хранится. Если файл хранится на жестком диске, он перемещается в корзину. Если файл хранится на диске, компакт-диске или в сетевой папке, он уничтожается.
Файл, открытый в каком-либо приложении, удалить нельзя. Файл необходимо закрыть, а общий файл — записать после изменения.
Примечание: Дополнительные сведения об удалении и восстановлении файлов и папок см. в центре справки и поддержки Microsoft Windows (в меню Пуск выберите элемент Справка и поддержка). Сведения о корзине см. в статье Просмотр, восстановление и удаление элементов в корзине.
Лучший способ удалить файлы — использовать Windows проводника.
Удаление файла с помощью проводника
Откройте окно проводника.
Совет: Чтобы быстро попасть в проводник, нажмите клавиши Windows клавиши +E.
Найдите файл, который нужно удалить.
Выберите файл и нажмите клавишу DELETE или нажмите кнопку Удалить на вкладке Главная ленты.
Совет: Вы можете выбрать несколько файлов, чтобы удалить их одновременно. Нажмите и удерживайте клавишу CTRL при выборе нескольких файлов для удаления. Чтобы выбрать длинный список файлов, щелкните первый из них, нажмите и удерживайте нажатой shift, а затем щелкните последний файл в списке.
Удаление файла из списка последних использованных в программе Office
Если вы хотите сохранить файл, но просто удалить его из списка последних использованных файлов, выполните следующие действия:
Выберите команду Файл > Открыть.
Найдите файл, который нужно удалить.
Щелкните файл правой кнопкой мыши и выберите удалить из списка.
Дополнительные сведения о настройке списка последних использованных файлов см. в этой теме.
В Office 2010 или Office 2007, вы можете удалять файлы из Office приложений или с помощью Windows проводника.
Удаление файла в приложении Office
Щелкните файл > Открыть в Office 2010 или нажмите Microsoft Office кнопку и выберите открыть в Office 2007.
Найдите файл, который нужно удалить.
Щелкните файл правой кнопкой мыши и выберите вконтекстное меню.
Совет: Вы можете выбрать несколько файлов, чтобы удалить их одновременно. Нажмите и удерживайте клавишу CTRL при выборе нескольких файлов для удаления. Чтобы выбрать длинный список файлов, щелкните первый из них, нажмите и удерживайте нажатой shift, а затем щелкните последний файл в списке.
Удаление файла с помощью проводника Windows
Совет: Чтобы быстро вернуться к Windows проводника, нажмите клавиши Windows клавиши +E.
Найдите файл, который нужно удалить.
Щелкните файл правой кнопкой мыши и в контекстном меню выберите команду Удалить.
Документы Doc и DocX являются одними из самых распространенных форматов текстовых файлов. Созданные компанией Microsoft, они поддерживаются практически всеми программами, так или иначе работающими с текстами.
DocX был выпущен относительно недавно и главным его плюсом, относительно предшественника Doc, можно назвать меньший размер документа. В названии DocX, X означает Xml.
Однако в чем разница между Doc и DocX форматом, кроме отличий в размере файла? В этой статье мы подробно разберем преимущества каждого и сравним их. Обратите внимание, рассматриваемые форматы не имеют ничего общего с файлами DDOC и ADOC.
В чем разница между Doc и DocX?
Doc
Многие годы назад Microsoft Word использовал Doc в качестве текстового файла по-умолчанию. Этот формат присутствует в операционной системе с первого выпуска пакета Word для MS-DOS.
Вплоть до 2006 года, когда только был запущен Microsoft Word , он являлся проприетарным форматом. То есть являлся частной собственностью компании, которой был разработан, и мог использоваться только оригинальным пакетом приложений. С тех пор многое изменилось и формат Doc может быть открыт большинством сторонних текстовых редакторов.
Doc включен в такие популярные программы обработки текстовых файлов, как LibreOffice Writer, OpenOffice Writer, KingSoft Writer и другие, их список довольно велик.
Вы можете использовать данные программы для открытия и редактирования файлов Doc. Не менее популярно интернет приложение Google Поисковика — Google Docs . Оно позволяет не только сохранять написанные документы в Doc формате, но и загружать их на сайт для дальнейшей работы.
DocX
В 2007 году формат Doc вынужденно отходит на второй план, поскольку на сцену выходит новый DocX, созданный Microsoft как преемник устаревшего документа. Он был сделан в связи с растущей конкуренцией между свободными и открытыми форматами, такими как Open Office и ODF .
В DocX весь код был написан в формате Xml. Именно по этой причине к названию старого Doc-файла добавили букву платформы, на которой была создана свежая версия. Новое кодирование соответственно принесло свои изменения и дополнительные возможности в работе.
DocX, являющийся результатом стандартов, представленных под названием Office Open XML, принес такие улучшения, как уменьшение размера файлов. Данное изменение проложило путь компании к разработке форматов PPTX и XLSX.
Форматирование Doc в DocX
В подавляющем большинстве случаев, любое программное обеспечение, работающее с текстами, и которое не может открыть старый формат Doc, способно преобразовать его в DocX. То же самое можно сделать и в обратном направлении.
Данная проблема возникает в случае, если пользователь работает в Word 2003 или более ранних версиях приложения. В этом случае необходимо открыть файл DocX в Word 2007 или более поздней версии и пересохранить его в Doc.
Компания Microsoft всегда стремится к максимальной совместимости своего продукта. Поэтому для старых версий Word был выпущен соответствующий пакет совместимости, который можно установить для поддержки формата DocX.
Если ваш Word все же не поддерживает DocX, а нужен именно он, не стоит отчаиваться! Существуют такие приложения как Google Docs, LibreOffice Writer и ряд других, способных помочь конвертировать любой Doc-файл в DocX, RTF, TXT и т.д.
Какой формат использовать? Doc или DocX?
На самом деле, вопрос “что использовать” касательно Doc и DocX не стоит настолько остро, чтобы он стал делом принципа. Оба этих формата используются одинаково широко всеми программами, так или иначе работающими с текстом.
Тем не менее, DocX лучше, поскольку приводит к существенному уменьшению размеров файла. Такие документы гораздо легче пересылать по почте и открывать для чтения. Еще одним преимуществом DocX является его база — Office Open XML , что позволяет документу поддержание расширенных функций. Многие приложения постепенно отказываются от сохранения документов в формате Doc.
Подводя итоги, принципиальной разницы между форматами нет. Исключением здесь выступает вопрос размера файлов и того, что от поддержания Doc постепенно отказываются разные текстовые программы. Таким образом, рекомендуем переходить на использование DocX, если вы все еще вынуждены работать с Doc.
Как восстановить Doc и DocX файлы?
Потеря важной информации в современном цифровом мире далеко не редкость. Многие из нас сталкивались со случайным стиранием файла путем использования комбинации Shift + Del или, того хуже, сбоем жесткого диска, вследствие чего терялись все документы. Если вы узнаете в этом свою ситуацию, читайте дальше и мы непременно поможем вам вернуть утерянные Doc и DocX файлы!
Приложение Starus Office Recovery 2.6 станет хорошим выбором для любого офисного сотрудника, ежедневно работающего над большим количеством документов, которые крайне важны для его фирмы. Интуитивно понятный русскоязычный интерфейс, высокая производительность и точность сканирования позволят в короткие сроки найти и восстановить удаленные файлы.
Изучить информацию о восстановлении текстовых файлов подробнее вы можете в статье «Как восстановить документы Microsoft Office” .
Этичный хакинг и тестирование на проникновение, информационная безопасность
Метаданные в файлах Word
В файле MS Word и вообще во всех офисных документах MS Office содержится множество метаданных.
Если нужно извлечь метаданные из файлов MS Word без открытия файла в редакторе Word, то можно воспользоваться специальными утилитами.
При этом популярный инструмент mat, который используется для показа и очистки метаданных, работает с файлами MS Word не очень хорошо:
На самом деле, мало что понятно и показанная информация кажется скорее мусором. Но полезные данные имеются, это строки:
В них говориться, что файлы docProps/core.xml и docProps/app.xml содержат потенциально пагубное содержимое. Но самих данных с помощью этой программы мы увидеть не можем.
Если попытаться проанализировать файл .docm (документ MS Word с поддержкой макросов):
То программа просто напишет, что не может обработать этот файл:
Это при том, что формат .docm имеет минимальное отличие от формата .docx — пара дополнительных файлов внутри (с описанием макросов и второй файл с самими макросами).
Имеется ещё одна версия mat2. Попробуем её:
Здесь всё намного лучше, выведены почти все метаданные файла.
Попробуем проанализировать формат .docm:
Как посмотреть метаданные файла .docm
Программа mat2 не в курсе, что .docm это такой же файл, как и .docx. Зато мы это знаем и можем пойти совсем простым путём — просто изменим (или добавим) расширение файла на .docx:
Теперь метаданные отлично извлекутся:
Как сделать выводимую в mat2 информацию более читаемой
Можно заметить, что вывод команды mat2 преимущественно состоит из строк, не несущих особой смысловой нагрузки:
Выводимая информация станет намного более ясной для восприятия, если мы просто уберём показ этих строк:
Что показывает mat2
Программа mat2 выводит название узлов XML файлов, которые имеют говорящие имена. А именно:
- AppVersion — версия приложения
- Application — приложение
- Characters — всего символов
- CharactersWithSpaces — всего символов с пробелами
- DocSecurity — безопасность документа
- HyperlinksChanged — ссылки изменены
- Lines — всего строк в документе
- LinksUpToDate — ссылки обновлены
- Pages — всего страниц в документе
- Paragraphs — всего параграфов в документе
- ScaleCrop — масштабирование/обрезка
- SharedDoc — совместный документ
- Template — используемый шаблон
- TitlesOfParts — имена частей
- TotalTime — общее время правки
- Words — всего слов в документе
- cp:lastModifiedBy — кем последний раз изменён документ
- cp:lastPrinted — дата последней печати документа
- cp:revision — всего редакций документа (количество правок и сохранений)
- dc:creator — кем документ создан
Как посмотреть метаданные документов MS Office без дополнительных программ
На самом деле, новый формат документов, например, файлов Word .docx представляет собой zip архив, в котором собраны преимущественно xml файлы (также там могут быть изображения, макросы, другие бинарные файлы).
Для ручного анализа я создал новый файл file3.docx и добавил туда картинку с GPS координатами и другими метаданными. Программы mat и mat2 показали присутствие изображения, но сами метаданные из него не вывели.
Итак, к файлу file3.docx можно добавить расширение .zip и после этого распаковать его содержимое как архив.
Медиафайлы при распаковке находятся в папке /word/media/.
Программа mat2 не смогла найти в изображении метаданных:
Программа mat также ничего не нашла:
Видимо, при вставке изображений в документы Word, они пересохраняются программой и при этом все метаданные теряются. Но их хотя бы можно просто открыть и посмотреть:
Метаданные документа содержаться в файлах docProps/core.xml и docProps/app.xml. Я открыл их в IDE NetBeans и для удобства чтения выбрал опцию форматирования документа, поскольку в начальном виде весь документ записан в одну строку, трудную для восприятия.
Файл docProps/core.xml:
Файл docProps/app.xml:
В файле core.xml имеются даты создания и изменения, которые не выводит даже программа mat2. Возможно, есть ещё какие-то поля, которые невозможно увидеть кроме как открыв эти файлы.
В каком файле Word содержаться макросы
Информация о макросах записана в файл /word/vbaData.xml, а сами макросы сохранены в /word/vbaProject.bin — этот файл является бинарным.
В каком файле Word записан текст документа
Текст документа сохраняется в файл /word/document.xml. В этом документе используется особая разметка на основе открывающихся и закрывающихся тегов и их свойствах.
Как очистить метаданные файла MS Word
Очистить метаданные документов MS Office, в том числе Word, можно прямо в самой программе для редактирования. Далее показано на примере Word.
В меню нажмите Файл:
Далее во вкладке Сведения найдите кнопку Поиск проблем и в выпадающем меню выберите Инспектор документов:
Если документ не сохранён, то перед анализом будет предложено сохранить его.
Обратите внимание на пункт Свойства документа и персональные данные — при желании, нажмите кнопку Удалить всё:
Удаление метаданных офисных файлов в Linux
Программа mat вроде бы как успешно удаляет метаданные из файла:
Об этом говорит вывод:
Программа mat2 успешно справилась с задачей и удалила все метаданные:
Обратите внимание, что она не очищает файл, а создаёт новый без метаданных, в данном случае имя файла без метаданных будет file3.cleaned.docx, что касается файла file3.docx, то он останется без изменений.
Итак, если вам действительно нужно удалить метаданные файла .docx не открывая его в редакторе Word, то алгоритм действий следующий:
- Добавьте к файлу расширение .zip.
- Распакуйте полученный архив.
- Откройте файлы docProps/core.xml и docProps/app.xml и замените данные на нужные вам. После редактирования сохраните эти файлы
- Выберите все распакованные каталоги и файлы и запакуйте всё это в zip архив.
- К полученному архиву добавьте расширение .docx
- Нужно проверить, что документ не повреждён и сохранил свою работоспособность. Чтобы в него не сохранились новые метаданные, на всякий случай сделайте копию нового документа и проверьте его.
Кстати, таким образом можно не только удалять, но и спуфить (подменять) метаданные офисных документов:
Обратите внимание на даты создания, изменения, печати и номер редакции:
Много лет назад аналогичный «разбор» и «сборку» файлов я делал даже на PHP (я редактировал содержимое файлов Word для целей обхода Антиплагиата) — рабочие файлы Word получались при упаковке их с помощью класса ZipArchive при использовании метода сжатия по умолчанию.
Заключение
Метаданные могут содержать важную информацию, вплоть до ФИО автора документа, поэтому им нужно уделять особое внимание.
В плане показа и очистки метаданных из документов MS Office такими инструментами как mat и mat2, то первая их не показывает и портит файл при очистке, вторая их показывает, и успешно очищает файл.
Самый простой способ очистить метаданные в документе Word и в других офисных программах — сделать это прямо в соответствущем редакторе MS Office.
Читайте также: