Как изменить кодировку csv файла на utf 8
Кодировка текста – это схема нумерации символов, в которой каждому символу, цифре или знаку присвоено соответствующее число. Кодировку используют для сохранения и обработки текста на компьютере. Каждый раз при сохранении текста в файл он сохраняется с использованием определенной схемы кодирования, и при открытии этого файла необходимо использовать такую же схему, иначе восстановить исходный текст не получится. Самыми популярными кодировками для кириллицы сейчас являются UTF-8, Windows-1251 (CP1251, ANSI).
Для того чтобы программа смогла правильно открыть текстовый файл, иногда приходится вручную менять кодировку, перекодируя текст из одной схемы в другую. Например, не редко возникают проблемы с открытием файлов CSV, XML, SQL, TXT, PHP.
В этой небольшой статье мы расскажем о том, как изменить кодировку текстового файла на UTF-8, Windows-1251 или любую другую.
Блокнот Windows
Если вы используете операционную систему Windows 10 или Windows 11, то вы можете изменить кодировку текста с помощью стандартной программы Блокнот. Для этого нужно открыть текстовый файл с помощью Блокнота и воспользоваться меню « Файл – Сохранить как ».
В открывшемся окне нужно указать новое название для файла, выбрать подходящую кодировку и нажать на кнопку « Сохранить ».
К сожалению, для подобных задач программа Блокнот часто не подходит. С ее помощью нельзя открывать документы большого размера, и она не поддерживает многие кодировки. Например, с помощью Блокнота нельзя открыть текстовые файлы в DOS 866.
Notepad++
Notepad++ (скачать) является одним из наиболее продвинутых текстовых редакторов. Он обладает подсветкой синтаксиса языков программирования, позволяет выполнять поиск и замену по регулярным выражениям, отслеживать изменения в файлах, записывать и воспроизводить макросы, считать хеш-сумы и многое другое. Одной из основных функций Notepad++ является поддержка большого количества кодировок текста и возможность изменения кодировки текстового файла в UTF-8 или Windows 1251.
Для того чтобы изменить кодировку текста с помощью Notepad++ файл нужно открыть в данной программе. Если программа не смогла правильно определить схему кодирования текста, то это можно сделать вручную. Для этого нужно открыть меню « Кодировки – Кириллица » и выбрать нужный вариант.
После открытия текста можно изменить его кодировку. Для этого нужно открыть меню « Кодировки » и выбрать один из вариантов преобразования. Notepad++ позволяет изменить текущую кодировку текста на ANSI (Windows-1251), UTF-8, UTF-8 BOM, UTF-8 BE BOM, UTF-8 LE BOM.
После преобразования файл нужно сохранить с помощью меню « Файл – Сохранить » или комбинации клавиш Ctrl-S.
Akelpad
Akelpad (скачать) – достаточно старая программа для работы с текстовыми файлами, которая все еще актуальна и может быть полезной. Фактически Akelpad является более продвинутой версией стандартной программы Блокнот из Windows. С его помощью можно открывать текстовые файлы большого размера, которые не открываются в Блокноте, выполнять поиск и замену с использованием регулярных выражений и менять кодировку текста.
Для того чтобы изменить кодировку текста с помощью Akelpad файл нужно открыть в данной программе. Если после открытия файла текст не читается, то нужно воспользоваться меню « Файл – Открыть ».
В открывшемся окне нужно выделить текстовый файл, снять отметку « Автовыбор » и выбрать подходящую кодировку из списка. При этом в нижней части окна можно видеть, как будет отображаться текст.
Для того чтобы изменить текущую кодировку текста нужно воспользоваться меню « Файл – Сохранить как » и сохранить документ с указанием новой схемы кодирования.
В отличие от Notepad++, текстовый редактор Akelpad позволяет сохранить файл в практически любой кодировке. В частности, доступны Windows 1251, DOS 886, UTF-8 и многие другие.
Подготовка файла .csv для импорта в CRM при помощи программы Excel
В описанном случае использовался Microsoft Excel 2017. Разумеется, все нижеприведенные действия можно выполнить при помощи другой версии программы, в этом случае процесс может незначительно отличаться.
Сохраните файл на диске
Сохраните на жестком диске файл, который вы получили путем экспорта из другой программы, и прежде чем вы перейдете к дальнейшим действиям, сделайте на всякий случай копию этого файла.
Создайте новый файл Excel
Откройте программу Excel и на пустом листе выделите первую ячейку (A1).
Для этого перейдите в закладку Данные и выберите опцию Из текста. Так вы сможете задать кодировку знаков перед началом импорта файла. Выберите для импорта сохраненный файл в формате .csv.
Подберите соответствующие параметры данных
Выбор файла запустит Мастер текстов. В окне предварительного просмотра вы сможете увидеть, правильно ли читаются кириллические знаки в импортируемом документе. Если нет, воспользуйтесь полем Формат файла и выберите другой формат кодировки (рекомендуется UTF-8).
После смены кодировки на формат UTF-8:
Если кириллические знаки отражены корректно, нажмите Далее.
Нажмите Далее и перейдите к третьему шагу. Для Livespace формат данных не имеет значения (он будет важен только в том случае, если вы хотите обрабатывать данные в Excel), так что можно оставить подсказываемый по умолчанию общий формат и нажать Готово.
В появившемся окне подтвердите, что данные должны быть помещены на существующий лист, в выбранную вами ранее ячейку А1.
Проверьте данные и сохраните файл
Ваши данные перенесены в Microsoft Excel. Теперь перед началом импорта в Livespace вы с легкостью можете проверить, все ли в порядке, и при необходимости внести изменения. Если кириллические знаки по-прежнему отражаются некорректно, повторите все действия, выбирая другую кодировку.
Если все правильно, сохраните подготовленный таким образом документ как файл программы Excel. Livespace обработает его так же, как и файл .csv, поэтому это будет самое быстрое решение.
После завершения вышеперечисленных действий вы можете перенести в Livespace необходимые данные, используя стандартную процедуру импорта файлов. Более подробно об этом вы можете прочитать в разделе Импорт файлов.
Пошаговое иллюстрированное руководство
Если открыть файл в формате CSV в программе Excel 2016, обычно вместо таблицы с данными получаешь какие-то непонятные строки текста:
Здесь сразу две проблемы: вместо кириллических символов Эксель подсунул что-то нечитаемое, а данные в каждой строке поместил в одну ячейку, разделив их запятыми.
Стоит ли беспокоиться и почему это со мной происходит?
Не переживайте, с вашими данными всё в порядке и ничего необратимого не случилось.
Превращение в кашу осмысленного теста, набранного кириллицей, происходит из-за неверной кодировки. По умолчанию Эксель использует кодировку 1251: Кириллица для Windows , но есть и другие форматы. Так, в нашем случае текст закодирован по стандарту UTF-8 . Это распространённая кодировка, поэтому и проблема чтения кириллицы встречается часто.
Данные слиплись по строкам тоже не случайно. CSV — Comma-Separated Values — текстовый формат, данные в котором разделены запятыми. Что, в общем-то, можно увидеть и на скриншоте.
Что сделать, чтобы получить таблицу
Для этого в Экселе предусмотрена команда Данные → Получить данные → Из файла → Из текстового/CSV-файла:
После выбора нужного файла и подтверждения (кнопка «Открыть») появляется диалоговое окно с предварительным просмотром и некоторыми настройками.
Кириллица всё ещё страдает, но данные уже оформлены в таблицу:
Поменять кодировку можно выбрав подходящую (в нашем случае это Юникод UTF-8) в выпадающем списке «Источник файла».
Обратите внимание, что есть возможность выбрать и «Разделитель». Это полезно для других текстовых форматов хранения данных. По умолчанию в качестве разделителя выбрана Запятая, что нам подходит.
Теперь всё в полном порядке: кириллические символы читаемы, а данные — в таблице. Можно жать на кнопку «Загрузить».
После этого диалоговое окно закрывается, а в Книге Эксель появляется отдельный Лист с данными из CSV-файла в привычном табличном виде:
И весь процесс в одной гифке:
Если у вас более ранняя версия Майкрософт Офиса, посмотрите пошаговое руководство открытия CSV-файла в Экселе 2013. Там, кстати, есть и альтернативный вариант — воспользоваться открытым пакетом LibreOffice.
Если при импорте контактов вы видите нечитаемые символы, как на скриншоте, это значит, что кодировка файла не подходит для импорта в Unisender. Файл нужно перекодировать в UTF-8. Далее мы расскажем, как это сделать в Excel.
Переходим на вкладку «Данные», выбираем «Получение внешних данных», а далее — «Из текста».
Открывается мастер импорта текста.
С текущей кодировкой содержимое файла нечитабельное.
В поле «Формат файла» перебираем кодировки, пока не найдём ту, в которой текст отображается правильно. Вариантов много, поэтому можно начать с форматов, которые начинаются со слова «Кириллица». Находим нужный формат, нажимаем «Далее».
Выбираем символы-разделители. В нашем случае это запятая.
Нажимаем «Далее» → «Готово» → «OK».
Так выглядит импортированный текст в Excel.
Теперь нажимаем «Файл» → «Сохранить как».
Вводим название файла, тип файла выбираем CSV, ниже нажимаем «Сервис» → «Параметры веб-документа».
Переходим на вкладку «Кодировка», выбираем «Юникод UTF-8» и нажимаем «OK».
Читайте также: