Ваня перевел текстовый файл из кодировки ascii в кодировку unicode как изменился объем файла
Как правило, при совместной работе с текстовыми файлами нет необходимости вникать в технические аспекты хранения текста. Однако если необходимо поделиться файлом с человеком, который работает с текстами на других языках, скачать текстовый файл из Интернета или открыть его на компьютере с другой операционной системой, может потребоваться задать кодировку при его открытии или сохранении.
Когда вы открываете текстовый файл в Microsoft Word или другой программе (например, на компьютере, язык операционной системы на котором отличается от того, на котором написан текст в файле), кодировка помогает программе определить, в каком виде нужно вывести текст на экран, чтобы его можно было прочитать.
В этой статье
Общие сведения о кодировке текста
То, что отображается на экране как текст, фактически хранится в текстовом файле в виде числового значения. Компьютер преобразует числические значения в видимые символы. Для этого используется кодикон.
Кодировка — это схема нумерации, согласно которой каждому текстовому символу в наборе соответствует определенное числовое значение. Кодировка может содержать буквы, цифры и другие символы. В различных языках часто используются разные наборы символов, поэтому многие из существующих кодировок предназначены для отображения наборов символов соответствующих языков.
Различные кодировки для разных алфавитов
Сведения о кодировке, сохраняемые с текстовым файлом, используются компьютером для вывода текста на экран. Например, в кодировке "Кириллица (Windows)" знаку "Й" соответствует числовое значение 201. Когда вы открываете файл, содержащий этот знак, на компьютере, на котором используется кодировка "Кириллица (Windows)", компьютер считывает число 201 и выводит на экран знак "Й".
Однако если тот же файл открыть на компьютере, на котором по умолчанию используется другая кодировка, на экран будет выведен знак, соответствующий числу 201 в этой кодировке. Например, если на компьютере используется кодировка "Западноевропейская (Windows)", знак "Й" из исходного текстового файла на основе кириллицы будет отображен как "É", поскольку именно этому знаку соответствует число 201 в данной кодировке.
Юникод: единая кодировка для разных алфавитов
Чтобы избежать проблем с кодированием и декодированием текстовых файлов, можно сохранять их в Юникоде. В состав этой кодировки входит большинство знаков из всех языков, которые обычно используются на современных компьютерах.
Так как Word работает на базе Юникода, все файлы в нем автоматически сохраняются в этой кодировке. Файлы в Юникоде можно открывать на любом компьютере с операционной системой на английском языке независимо от языка текста. Кроме того, на таком компьютере можно сохранять в Юникоде файлы, содержащие знаки, которых нет в западноевропейских алфавитах (например, греческие, кириллические, арабские или японские).
Выбор кодировки при открытии файла
Если в открытом файле текст искажен или выводится в виде вопросительных знаков либо квадратиков, возможно, Word неправильно определил кодировку. Вы можете указать кодировку, которую следует использовать для отображения (декодирования) текста.
Откройте вкладку Файл.
Перейдите к разделу Общие и установите флажокПодтверждать преобразование формата файла при открытии.
Примечание: Если установлен этот флажок, Word отображает диалоговое окно Преобразование файла при каждом открытии файла в формате, отличном от формата Word (то есть файла, который не имеет расширения DOC, DOT, DOCX, DOCM, DOTX или DOTM). Если вы часто работаете с такими файлами, но вам обычно не требуется выбирать кодировку, не забудьте отключить этот параметр, чтобы это диалоговое окно не выводилось.
Закройте, а затем снова откройте файл.
В диалоговом окне Преобразование файла выберите пункт Кодированный текст.
В диалоговом окне Преобразование файла установите переключатель Другая и выберите нужную кодировку из списка.
В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.
Если почти весь текст выглядит одинаково (например, в виде квадратов или точек), возможно, на компьютере не установлен нужный шрифт. В таком случае можно установить дополнительные шрифты.
Чтобы установить дополнительные шрифты, сделайте следующее:
Выполните одно из указанных ниже действий.
В Windows 7
На панели управления выберите раздел Удаление программы.
В списке программ щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.
В Windows Vista
На панели управления выберите раздел Удаление программы.
В списке программ щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.
В Windows XP
На панели управления щелкните элемент Установка и удаление программ.
В списке Установленные программы щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.
В группе Изменение установки Microsoft Office нажмите кнопку Добавить или удалить компоненты и затем нажмите кнопку Продолжить.
В разделе Параметры установки разверните элемент Общие средства Office, а затем — Многоязыковая поддержка.
Выберите нужный шрифт, щелкните стрелку рядом с ним и выберите пункт Запускать с моего компьютера.
Совет: При открытии текстового файла в той или иной кодировке в Word используются шрифты, определенные в диалоговом окне Параметры веб-документа. (Чтобы вызвать диалоговое окно Параметры веб-документа, нажмите кнопку Microsoft Office, затем щелкните Параметры Word и выберите категорию Дополнительно. В разделе Общие нажмите кнопку Параметры веб-документа.) С помощью параметров на вкладке Шрифты диалогового окна Параметры веб-документа можно настроить шрифт для каждой кодировки.
Выбор кодировки при сохранении файла
Если не выбрать кодировку при сохранении файла, будет использоваться Юникод. Как правило, рекомендуется применять Юникод, так как он поддерживает большинство символов большинства языков.
Если документ планируется открывать в программе, которая не поддерживает Юникод, вы можете выбрать нужную кодировку. Например, в операционной системе на английском языке можно создать документ на китайском (традиционное письмо) с использованием Юникода. Однако если такой документ будет открываться в программе, которая поддерживает китайский язык, но не поддерживает Юникод, файл можно сохранить в кодировке "Китайская традиционная (Big5)". В результате текст будет отображаться правильно при открытии документа в программе, поддерживающей китайский язык (традиционное письмо).
Примечание: Так как Юникод — это наиболее полный стандарт, при сохранении текста в других кодировках некоторые знаки могут не отображаться. Предположим, например, что документ в Юникоде содержит текст на иврите и языке с кириллицей. Если сохранить файл в кодировке "Кириллица (Windows)", текст на иврите не отобразится, а если сохранить его в кодировке "Иврит (Windows)", то не будет отображаться кириллический текст.
Если выбрать стандарт кодировки, который не поддерживает некоторые символы в файле, Word пометит их красным. Вы можете просмотреть текст в выбранной кодировке перед сохранением файла.
При сохранении файла в виде кодированного текста из него удаляется текст, для которого выбран шрифт Symbol, а также коды полей.
Выбор кодировки
Откройте вкладку Файл.
Выберите пункт Сохранить как.
Чтобы сохранить файл в другой папке, найдите и откройте ее.
В поле Имя файла введите имя нового файла.
В поле Тип файла выберите Обычный текст.
Если появится диалоговое окно Microsoft Office Word — проверка совместимости, нажмите кнопку Продолжить.
В диалоговом окне Преобразование файла выберите подходящую кодировку.
Чтобы использовать стандартную кодировку, выберите параметр Windows (по умолчанию).
Чтобы использовать кодировку MS-DOS, выберите параметр MS-DOS.
Чтобы задать другую кодировку, установите переключатель Другая и выберите нужный пункт в списке. В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.
Примечание: Чтобы увеличить область отображения документа, можно изменить размер диалогового окна Преобразование файла.
Если разрешена подстановка знаков, знаки, которые невозможно отобразить, будут заменены ближайшими эквивалентными символами в выбранной кодировке. Например, многоточие заменяется тремя точками, а угловые кавычки — прямыми.
Если в выбранной кодировке нет эквивалентных знаков для символов, выделенных красным цветом, они будут сохранены как внеконтекстные (например, в виде вопросительных знаков).
Если документ будет открываться в программе, в которой текст не переносится с одной строки на другую, вы можете включить в нем жесткие разрывы строк. Для этого установите флажок Вставлять разрывы строк и укажите нужное обозначение разрыва (возврат каретки (CR), перевод строки (LF) или оба значения) в поле Завершать строки.
Поиск кодировок, доступных в Word
Word распознает несколько кодировок и поддерживает кодировки, которые входят в состав системного программного обеспечения.
Ниже приведен список письменностей и связанных с ними кодировок (кодовых страниц).
Хотел установить python , но ничего не вышло. и версии разные пробовал и 32 и 64 битные. вся установка заканчивается на окне installing, ползунок загрузки просто не идет и ничего не происходит.
Дайте инструкцию как сделать светодиодный куб 3х3х3 с arduino, но без резистеров! 35
Под признаками объекта мы будем понимать его? продолжите предложения!
Напишите все команды которые используются тут. var s, k: integer; begin s : = 3; for k : = 0 to 9 do begin if k mod 2=0 then s : = s + 3 ; writeln(k); end; writeln(s); end.
1. чему будет равно значение переменной n после выполнения программы: n: =6 нц пока n > 7 n: =n-1 кц ответ: 2. сколько раз будет выведено на экран слово «» после выполнения программы: n: =6 нц пока n< 5 n: =n+1 вывод «», нс кц ответ: 3. какое число будет выведено на экран в результате выполнения этого цикла? i: =4 вывод «9» нц пока i< 2 вывод i i: = i +1 кц ответ: 4. чему будет равно значение переменной a после после выполнения этого цикла? i: =3 a: =12 нц пока i< 2 вывод i i: = i+1 кц ответ: 5. чему будет равно значение переменной выполнения этого цикла? i: =4 a: =0 нц пока i< 8 a: = a+i i: = i +2 кц ответ:
На неправильный ответ заблокирую! нормальным 25 б! : 7,8.
Участок земли прямоугольной формы и моток проволоки заданной длины для его ограждения. рассчитать стороны участка, при которых площадь будет максимальна.
Вводятся целые числа до тех пор пока не будет введен 0. определить сколько среди них четных и нечетных чисел. напишите программу используя цикл-пока(с предусловием): while do (ниже прикреплено фото с этой же программой но на основе цикла-до(repeat))
Известно, что два узла с ip-адресами 201.72.108.64 и 201.72.98.60 принадлежат одной подсети. укажите максимально возможное число единиц в двоичном представлении маски данной подсети.
3. Двоичное кодирование информации в компьютере
В компьютере для представления информации используется двоичное кодирование,
так как удалось создать надёжно работающие технические устройства, которые
могут со стопроцентной надёжностью сохранять и распознавать не более двух
различных состояний (цифр):
Электромагнитное реле (замкнуто/разомкнуто);
Участок поверхности электромагнитного носителя информации
(намагничен/размагничен);
Участок поверхности лазерного диска (отражает/не отражает);
Триггер может устойчиво находиться в одном из двух состояний хранить 0 или
1.
Информация в компьютере представлена в двоичном коде, алфавит которого
состоит из двух цифр 0 и 1.
Каждая цифра машинного двоичного кода несёт количество информации, равное 1
биту.
Присвоение символу определённого числового кода- это вопрос соглашения.
Эти соглашения представлены в виде таблиц кодирования.
4. Таблицы кодирования, которые надо знать!
Количество символов, которое можно
закодировать, используя таблицы
кодирования, вычисляется по формуле:
Где
I
N=2
N - количество символов
I - количество бит отводимых для
кодирования одного символа
6. КОИ7 (Код обмена информацией, 7-битный)
7. ASCII, КОИ8, СР1251, СР866, Mac, ISO
8. Unicode (Международный стандарт)
9. Единицы измерения информации
1 байт = 8 бит
1 Кбайт = 210 байт ( 1024 байт)
1 Мбайт = 210 Кбайт = 220 байт
1 Гбайт = 210 Мбайт = 220 Кбайт = 230 байт
10. Задача №1
Текстовый файл содержит данные в кодировке
КОИ-7, и занимает в памяти 56 Кбайт.
Определить: сколько будет занимать этот файл в
кодировке КОИ-8.
1.
2.
3.
4.
64 кБ
49 кБ
112 кБ
28 кБ
11. Решение задачи №1
КОИ7 1символ = 7 бит
КОИ8 1символ = 8 бит
1 Кбайт = 210 байт = 210*23 бит
Количество символов, которые закодированы:
N = 56*210*23 /7 = 8*210*23
Объём памяти в КОИ8
8*210*23 *8 =64* 210*23 бит = 64 Кбайта
12. Задача №2
13. Решение задачи №2
Количество символов – 40
Объём в ASCII 40 байт (1 символ 8 бит или
1 байт)
Объём в Unicode 80 байт (1 символ 16 бит или
2 байта)
Ответ: увеличится на 40 байт
14. Задача №3
15. Решение задачи №3
Количество символов – 68
Объём 68 * 8=544 бит
Ответ №4: 544 бит
16. Задача 4
17. Решение задачи №4
Слово – великое оружие жизни.
Слов_-еикружзн
.
Всего 16 символов
16=2i
i = 4 бита
Количество символов текста – 29
Объём 29 * 4 = 116 бит
Ответ №4: 116 бит
18. Задача №5
19. Сложение двоичных чисел
20. Решение логических уравнений
Логические операции имеют следующий приоритет:
1.
Действия в скобках;
2.
Инверсия (отрицание);
3.
Дизъюнкция (логическое умножение);
4.
Конъюнкция (логическое сложение);
5.
Импликация (логическое следование);
6.
Эквиваленция (равнозначность).
Количество вариантов значений логических переменных
N=2K
Где
N - количество вариантов значений логических переменных
K - количество логических переменных
21. Задача
Определить при каких значения А, В и С
Функция F принимает значение «истина»
F=(A and b) or (not A and C) and not B
22. Решение
Построим таблицу истинности.
F=(A and В) or (not A and C) and not B
Количество строк = количеству вариантов значений = 23 =8
Количество столбцов = Кол-во переменных + кол-во операций = 3+6 =9
А
В
С
0
0
0
0
0
1
0
1
0
0
1
1
1
0
0
1
0
1
1
1
0
1
1
1
А and В
Not A
not A and C
not B
(not A and C) and not B
F
Решая его найдём следовательно, .
16 бит = 2 байт, 8 бит = 1 байт.
4096 = 1024⋅4, 16 бит = 2 байта, 8 бит = 1 байт
Было в Unicode: 2 12 * 2 = 2 13 байт
Стало в Windows-1251: 2 12 байт.
Объём файла уменьшился на 2 13 байт - 2 12 байт = 2 12 байт = 4 Кбайта
Объем информации в кодировке КОИ-8: 5120 символов * 1 байт = 5120 байт.
Объем информации в 16-битной кодировке Unicode: 5120 символов * 2 байта = 10240 байт.
10240 байт - 5120 байт = 5120 байт.
5120 : 1024 = 5 Кбайт.
Источник: Яндекс: Тренировочная работа ЕГЭ по информатике. Вариант 1.Обозначим количество символов в документе за .
Тогда объем информации в кодировке КОИ-8: бит = байт
Объем информации в 16-битной кодировке Unicode: бит = байт.
Размер памяти увеличился на байт = 4*1024 байт .
Ответ: 4096 символов.
N — количество символов.
16 * N — объём информации в 16-битной кодировке.
Считая, что каждый символ кодируется двумя байтами, оцените информационный объем следующего предложения в кодировке Unicode:
Диаметр окружности равен 2R.
Подсчитаем количество символов в заданном предложении, включая пробелы и точку: их 28. Поскольку один символ кодируется 2 байтами, 28 символов кодируются 56 байтами.
Считая, что каждый символ кодируется 16 битами, оцените информационный объем следующей фразы в кодировке Unicode:
«Word» — по-русски «слово».
Подсчитаем количество символов в заданном предложении, включая кавычки, пробелы, тире, дефис и точку: всего их 27. Поскольку один символ кодируется 16 битами, 27 символов кодируются 432 битами.
Считая, что каждый символ кодируется 8 битами, оцените информационный объем следующей пушкинской фразы в кодировке Unicode:
Хвалу и клевету приемли равнодушно и не оспаривай глупца.
Подсчитаем количество символов в заданном предложении, включая пробелы: всего их 57. По условию задачи один символ кодируется 8 битами. Знаем: 8 бит = 1 байт. Имеем: 1 символ = 8 бит = 1 байт. Т. к. всего символов 57, то в байтах объём фразы 57 байт.
Скорость передачи данных через ADSL-соединение равна 128000 бит/с. Передача текстового файла через это соединение заняла 1 минуту. Определите, сколько символов содержал переданный текст, если известно, что он был представлен в 16-битной кодировке Unicode.
Q = 128000 бит/c * 60 c.
Каждый символ в данной кодировке кодируется 16-ю битами. Следовательно, количество символов определится так:
N = 128000 бит/c * 60 c : 16 = 8000 * 60 = 480 000.
Скорость передачи данных через модемное соединение равна 4096 бит/с. Передача текстового файла через это соединение заняла 10 с. Определите, сколько символов содержал переданный текст, если известно, что он был представлен в 16-битной кодировке Unicode.
Объём информации вычисляется по формуле Q = q * t, где t — время передачи q — cкорость передачи данных. Поэтому
Q = 4096 бит/c * 10 c = 2 12 бит/c * 10 c .
Читайте также: