Не удается декодировать файл
у меня есть закодированный ANSI текстовый файл, который не должен был быть закодирован как ANSI, поскольку были подчеркнуты символов ANSI не поддерживает. Я бы предпочел работать с UTF-8.
можно ли декодировать данные правильно или они теряются при перекодировании?
какие инструменты я могу использовать?
вот пример того, что у меня есть:
Я могу сказать из контекста (café должно быть café), что это должны быть эти два символа:
EDIT: простая возможность устранить, прежде чем переходить к более сложным решениям: вы пытались установить набор символов в utf8 в текстовом редакторе, в котором Вы читаете файл? Это может быть просто случай, когда кто-то отправляет вам файл utf8, который Вы читаете в редакторе, чтобы сказать cp1252.
просто взяв два примера, это случай, когда utf8 читается через объектив однобайтовой кодировки, вероятно, один из iso-8859-1, iso-8859-15 или cp1252. Если вы может размещать примеры других проблемных символов, должно быть возможно сузить это больше.
поскольку визуальный осмотр символов может вводить в заблуждение, вам также нужно будет посмотреть на базовые байты: § вы видите на экране, может быть 0xa7 или 0xc2a7, и это определит вид преобразования набора символов, который вам нужно сделать.
можно предположить, что все ваши данные были искажены точно так же - что он пришел из того же источника и ушел через ту же последовательность преобразований, так что, например, в вашем тексте нет ни одного é, это всегда ç? Если это так, проблема может быть решена с помощью последовательности преобразований набора символов. Если вы можете быть более конкретным о среде, в которой вы находитесь, и базе данных, которую вы используете, кто-то здесь, вероятно, может сказать вам, как выполнить соответствующее преобразование.
в противном случае, если проблемные символы встречаются только в некоторых местах ваших данных, вам придется взять его экземпляр за экземпляром, основываясь на предположениях типа "ни один автор не намеревался помещать ç в свой текст, поэтому всякий раз, когда вы его видите, замените ç". Последний вариант более рискован, во-первых, потому, что эти предположения о намерениях авторов могут быть неправильными, во-вторых, потому, что вам придется самому определять каждый проблемный символ, что может быть невозможно, если слишком много текста для визуальной проверки или если он написан на иностранном для вас языке или системе письма.
выполните следующие действия с помощью Notepad++
1-скопировать исходный текст
2-в Notepad++ откройте новый файл, измените кодировку - > выберите кодировку, которую вы считаете исходным текстом. Попробуйте также кодировку "ANSI", так как иногда файлы Unicode читаются как ANSI некоторыми программами
4-затем преобразовать в Unicode, перейдя снова через то же меню: Encoding - > " Encode in UTF-8 "(не "конвертировать в UTF-8") и, надеюсь, он станет читаемый
вышеуказанные шаги применяются для большинства языков. Вам просто нужно угадать исходную кодировку перед вставкой в notepad++, а затем преобразовать через то же меню в альтернативную кодировку на основе Unicode, чтобы увидеть, становятся ли вещи читаемыми.
большинство языков существует в 2 формах кодирования: 1 - старая форма ANSI (ASCII), только 8 бит, первоначально использовалась большинством компьютеров. 8 бит допускали только 256 возможностей, 128 из них, где обычные латинские и контрольные символы, последние 128 бит были прочитаны по-разному в зависимости от языковых настроек ПК 2 - новый стандарт Unicode (до 32 бит) дает уникальный код для каждого символа на всех известных в настоящее время языках и многое другое. если файл является unicode, его следует понимать на любом ПК с установленным шрифтом языка. Обратите внимание, что даже UTF-8 идет до 32 бит и так же широк, как UTF-16 и UTF-32 только он пытается остаться 8 бит с латинскими символами, чтобы сэкономить место на диске
когда вы видите последовательности символов, такие как ç и é, это обычно указывает на то, что файл UTF-8 был открыт программой, которая считывает его как ANSI (или аналогичный). Символы юникода, такие как:
U + 00C2 Латинская заглавная буква A с окружностью
U + 00C3 Латинская заглавная буква A с Тильдой
U + 0082 перерыв разрешен здесь
U + 0083 нет перерыва здесь
Как правило, отображаются в тексте ANSI из-за стратегии переменных байтов, которую использует UTF-8. Этот стратегия объясняется очень хорошо здесь.
преимущество для вас заключается в том, что появление этих нечетных символов позволяет относительно легко найти и, следовательно, заменить экземпляры неправильного преобразования.
любой данный текст, предполагая, что он на английском языке, будет иметь относительно небольшое количество различных типов подстановок.
Это может быть серьезной проблемой, особенно если вам нравятся ваши фильмы на физических копиях в хорошо известном формате. По этой причине мы подготовили некоторые решения, которые должны пригодиться. Если у вас есть проблемы с вышеупомянутой ошибкой, обязательно проверьте их.
1: скачать сторонний пакет кодеков
Это очевидное упущение, сделанное Microsoft при переходе с Windows 7/8.1 на Windows 10. А именно, не говорите нам об этом, но кажется, что они пропустили старые форматы и кодексы, что делает видеопроигрыватель по умолчанию полностью непригодным для определенных видеофайлов.
- ЧИТАЙТЕ ТАКЖЕ: Xbox One позволяет воспроизводить видео MKV с этими кодеками
Существует множество различных пакетов кодеков, и все они бесплатны. Мы отлично провели время с пакетом кодеков K-Lite, который довольно легкий по сравнению с некоторыми другими подобными пакетами. Вот как скачать и установить его:
- Загрузите стандартную версию K-Lite Codec Pack здесь.
- Запустите установщик.
- Следуйте инструкциям и пропустите сложные настройки. Вам это не нужно.
- После завершения установки перезагрузите компьютер и повторите попытку воспроизведения видео или фильмов.
2: установить альтернативный плеер
Вероятно, нет ни одного видео формата, который не может быть воспроизведен с VLC. Интерфейс действительно неясен, но в целом, это, вероятно, лучший универсальный видеоплеер, который вы когда-либо найдете.
- ЧИТАЙТЕ ТАКЖЕ: теперь VLC поставляется с поддержкой видео на 360 градусов
Некоторые альтернативы, которые вы можете попробовать, это BS Player, GOM Player или KM Player. Все бесплатно и, в основном, в паре с адекватными аудио и видео кодеками. Это означает, что все они должны работать намного лучше с видеофайлами, и вы наверняка избежите вышеупомянутой ошибки.
3: обновить Windows
Наконец, если вы решили использовать ресурсы Windows для воспроизведения DVD, но ошибка вездесуща, единственное, что вы можете сделать, это обновить вашу систему. Некоторые пользователи сообщили, что ошибка даже ускорилась при потоковой передаче видео из браузера, но она была устранена путем обновления системы.
Поэтому убедитесь, что ваша система обновлена и, возможно, и, возможно, ошибка исчезнет. Кроме того, оттуда вы можете перейти в «Магазин» и обновить приложение «Кино и ТВ». Изменения происходят часто, и есть вероятность, что решение проблемы уже под рукой.
Это должно сделать это. Мы надеемся, что это было полезное чтение, и призываем вас поделиться своим опытом в разделе комментариев ниже.
Продукты Acrobat раньше открывали файл PDF, ожидая встретить в нем заголовок %PDF-header в любом месте первых 1024 байтов файла. Для внешних байтов перед заголовком %PDF-header никакие проверки не выполнялись. Однако обновления 10.1.5 и 11.0.01 улучшают защиту с помощью более строгого анализа заголовка PDF. Продукт теперь не позволяет открывать небольшую часть файлов PDF, которые не начинаются с заголовка «%PDF-' header» и возникает ошибка:
Ошибка. Документ поврежден и не может быть восстановлен. Adobe Reader не может открыть файл, поскольку формат файла не поддерживается или файл был поврежден (например, отправлен по e-mail как вложение и декодирован неправильно).
Программы для создания PDF-файлов
Если вы управляете или администрируете программным обеспечением, которое автоматически создает PDF-файлы, измените способ создания PDF-файлов. Убедитесь, что посторонние байты не появляются в начале файла перед %PDF.
Получатели PDF: корпоративные администраторы и пользователи
Если вы являетесь пользователем или корпоративным IT-профессионалом , можете отключить проверку заголовка на компьютерах, настроив соответствующие параметры. Можете настроить эти параметры на уровне каждого пользователя в HKCU или на уровне компьютера — для всех пользователей, в HKLM. Можете использовать подобный метод и на Mac OS, изменяя ту же настройку plist. Если ключ AVGeneral не существует, создайте его вручную.
Путь HKLM имеет примерно такой вид:
Например, чтобы изменить поведение Acrobat 11.0, создайте DWORD вот здесь: HKLM\SOFTWARE\Adobe\Adobe Acrobat\11.0\AVGeneral\bValidateBytesBeforeHeader=dword:00000000
Путь HKCU имеет примерно такой вид:
Например, чтобы изменить поведение Reader 10.0, создайте DWORD вот здесь: HKCU\SOFTWARE\Adobe\Acrobat Reader\10.0\AVGeneral\bValidateBytesBeforeHeader=dword:00000000
Всегда меняйте наименование продукта и номер версии в соответствии с вашей конкретной ситуацией. Этот метод позволяет отображать PDF на тех компьютерах, которыми вы можете управлять.
Это может быть серьезной проблемой, особенно если вам нравятся ваши фильмы на физических копиях в известном формате. По этой причине мы подготовили некоторые решения, которые должны быть полезными. Если у вас возникли проблемы с упомянутой выше ошибкой, обязательно проверьте их.
Как решить «Ошибка: видео не может быть декодировано» в Windows 10
Это очевидное упущение, сделанное Microsoft, когда переход от Windows 7 / /8.1 а Windows Их было 10. Я имею в виду, не будем об этом говорить, но кажется, что старые форматы и кодекс были пропущены, что делало видеопроигрыватель по умолчанию полностью непригодным для определенных видеофайлов.
В большинстве отчетов указывается, что затронутые пользователи не могут воспроизводить DVD-диски, которые в основном представлены в формате AVI. Эти слегка устаревшие форматы не будут работать на встроенном проигрывателе фильмов и ТВ. Теперь это можно решить несколькими способами, и, во-первых, при отсутствии предустановленных кодеков, загрузите сторонний пакет кодеков. Это должно позволить даже встроенному проигрывателю запускать текущие разреженные форматы видео.
Есть много разных кодеков, все они бесплатные. Мы отлично провели время с пакетом кодеков K-Lite, который довольно легкий по сравнению с другими подобными пакетами. Вот как скачать и установить его:
2: установить альтернативный плеер
Вероятно, нет ни одного видео формата, который не может быть воспроизведен с VLC. Интерфейс темный, но в целом это, вероятно, лучший универсальный видеоплеер, который вы когда-либо встречали.
Некоторые альтернативы, которые вы можете попробовать, это BS Player, GOM Player или KM Player. Все бесплатно и в основном в паре с подходящими аудио и видео кодеками. Это означает, что все они должны намного лучше работать с видеофайлами, и вы наверняка избежите ошибки, упомянутой выше.
3: Обновление Windows
Наконец, если вы решили использовать Windows Ресурсы для воспроизведения DVD, но ошибка повсеместна, все, что вы можете сделать, это обновить вашу систему. Некоторые пользователи сообщали, что ошибка даже ускорилась при потоковой передаче видео из браузера, но она была устранена путем обновления системы.
Поэтому убедитесь, что ваша система обновлена и, возможно, и, возможно, ошибка исчезнет. Кроме того, оттуда вы можете перейти в «Магазин» и обновить приложение «Кино и ТВ» Изменения происходят часто, и есть вероятность, что может быть решение данной проблемы.
Ты должен сделать это. Мы надеемся, что это полезное чтение, и мы рекомендуем вам поделиться своим опытом в разделе комментариев ниже.
Как восстановить неисправный документ Adobe Acrobat / Adobe Reader
Наиболее частой причиной возникновения таких ошибок являет некорректная работа различного программного обеспечения: браузеров, почтовых программ, операционной системы, антивируса, firewall’ов и прочего.
Простые способы решения этой проблемы:
- скачать документ из первоисточника заново
- восстановить копию документа из резервной копии
- восстановить предыдущую версию файла с документом
- Извлечение текста из *.PDF файла вручную
- Восстановление неисправного PDF файла с помощью специального онлайн-сервиса
- Восстановление некорректного PDF файла с помощью специальной утилиты
Необходимо последовательно попробовать каждый из этих вариантов восстановления некорректных PDF файлов.
Извлечение текста из *.PDF файла вручную
Если важно и достаточно восстановить только текст из поврежденного PDF файла, то воспользуйтесь каким-либо удобным текстовым редактором, например Notepad++ и откройте с помощью него поврежденный документ. Вы увидите смесь кода Post Script, текста и наборов нечитаемых символов, как в фильме «Матрица». Потом необходимо визуально выделять блоки с текстом в файле и копировать эти блоки в новый текстовый файл. Это будет долгая и кропотливая работа которая позволит извлечь текст из документа Acrobat. Табличные данные, графика и форматирование текста в этом случае восстановить не удастся.
Восстановление неисправного PDF файла с помощью специального онлайн-сервиса
От клиента сервиса требуется:
- выбрать один *.PDF файл, загружаемый на сервис.
- ввести адрес email.
- ввести с картинки символы captcha.
После оплаты $5 за файл размером до 100Мб пользователь получает ссылку на скачивание восстановленного PDF документа Adobe Acrobat / Adobe Reader.
Сервис универсален и работает со всеми операционными системами (Windows, MacOS, iOS, Android) и со всеми видами устройств (компьютер, планшет, телефон).
Восстановление некорректного PDF файла с помощью специальной утилиты
Работа с Recovery Toolbox for PDF очень проста и понятна, так как это обычный пошаговый помощник. Требуется только:
- Ввести некорректный *.pdf файл на диске
- Ввести имя нового PDF файла, куда будут сохранены восстановленные страницы
- Выбрать версию нового PDF файла из списка
Примечание: Recovery Toolbox for PDF работает только на компьютерах с Windows.
Примечание: PDF (Portable Document Format) вероятно наиболее массовый формат для документа т.к. он поддерживается всеми ОС, более безопасный, файл документа Acrobat трудно изменить, а также файл Acrobat документа можно защитить паролем и водяными знаками.
Читайте также: