В файле хранятся не изображения символов а их
2. Сколько различных символов можно использовать при 4-битном коде (на каждый символ отводится 4 бит)?
1. Сколько битов потребуется, чтобы размесить в памяти компьютера фразу «Тили-тили тесто!»?
Правильный ответ: b)
2. Максимальное значение энтропии источника, который порождает 16 различных символов равно:
c) нельзя определить
3. Коэффициент сжатия для источника с вероятностями , , , равен:
Правильный ответ: a)
4. Энтропия Шеннона обладает свойством:
Правильный ответ: a)
a) энтропии Шеннона
b) условной энтропии
c) относительной энтропии
Правильный ответ: b)
1. Является ли побуквенный код , , для источника префиксным?
c) нельзя определить
Правильный ответ: b)
2. Является ли побуквенный код , , для источника разделимым?
c) нельзя определить
Правильный ответ: b)
3. Является ли побуквенный код , , однозначно декодируемым?
c) нельзя определить
Правильный ответ: a)
4. Выполняется ли неравенство Крафта для кода , , ?
Правильный ответ: a)
Правильный ответ: a)
1. Средняя длина кодового слова побуквенного кода , , , для источника с равномерным распределением вероятностей равна:
Правильный ответ a)
2. Избыточность побуквенного кода , , , для источника с равномерным распределением вероятностей равна:
Правильный ответ b)
3. Является ли код , , , для источника с равномерным распределением вероятностей оптимальным?
Правильный ответ b)
4. Является ли код , , , для источника с распределением вероятностей ,, , оптимальным?
Правильный ответ a)
5. Средняя длина кодового слова кода , , , для источника с распределением вероятностей ,, , равна:
Правильный ответ a)
1 тест. Для кода Шеннона справедливо соотношение:
Правильный ответ b)
2. Длина кодового слова кода Шеннона для символа определяется из соотношения ( – вероятность появления символа ):
Правильный ответ a)
3. Средняя длина кодового слова кода Фано для источника с равномерным распределением вероятностей равна:
Правильный ответ a)
4. Совпадают ли коды Фано и Хаффмана для источника с равномерным распределением вероятностей?
c) возможны обе ситуации
Правильный ответ с)
5 тест. Совпадают ли средние длины кодов Фано и Хаффмана для источника с равномерным распределением вероятностей?
Правильный ответ a)
a) с известной статистикой
b) с неизвестной статистикой
c) с равномерным распределением вероятностей
Правильный ответ b)
a) скользящее окно
b) подвижное окно
c) пластиковое окно
Правильный ответ а)
3. Адаптивный код Хаффмана был предложен:
Правильный ответ b)
a) с равномерным распределением символов
b) с большим количеством одинаковых символов
Правильный ответ а)
Правильный ответ а)
a) с известной статистикой
b) с неизвестной статистикой и меняющейся статистикой
c) с равномерным распределением вероятностей
Правильный ответ b)
2. Основными видами словарных методов типа LZ являются:
a) адаптивные коды и оптимальные коды
b) коды со скользящим окном и коды с использованием адаптивного словаря
c) адаптивный код Хаффмана и коды с использованием адаптивного словаря
Правильный ответ b)
3. При словарном кодировании адаптивный словарь используется:
a) для хранения ранее встречавшихся комбинаций символов и их кодов
Содержание урока:
14.1. Кодировка ASCII и её расширения | |
Кодирование текстовой информации | 14.2. Стандарт Unicode |
14.1. Кодировка ASCII и её расширения
Основой для компьютерных стандартов кодирования символов послужил код ASCII (American Standard Code for Information Interchange) — американский стандартный код для обмена информацией, разработанный в 1960-х годах в США и применявшийся для любых, в том числе и некомпьютерных, способов передачи информации (телеграф, факсимильная связь и т. д.). Этот код 7-битовый: общее количество символов составляет 2 7 = 128, из них первые 32 символа — управляющие, а остальные — изображаемые, т. е. имеющие графическое изображение. К изображаемым символам в ASCII относятся буквы латинского алфавита (прописные и строчные), цифры, знаки препинания и арифметических операций, скобки и некоторые специальные символы. Кодировка ASCII приведена в табл. 3.8.
Таблица 3.8
Кодировка ASCII
Хотя для кодирования символов в ASCII достаточно 7 битов, в памяти компьютера под каждый символ отводится ровно 1 байт (8 битов), при этом код символа помещается в младшие биты, а в старший бит заносится 0.
Например, 01000001 — код прописной латинской буквы «А»; с помощью шестнадцатеричных цифр его можно записать как 41.
Впоследствии использование кодовых таблиц было несколько упорядочено: каждой кодовой таблице было присвоено особое название и номер. Для русского языка наиболее распространёнными стали однобайтовые кодовые таблицы CP-866, Windows-1251 (табл. 3.9) и КОИ-8 (табл. 3.10). В них первые 128 символов совпадают с ASCII-кодировкой, а русские буквы размещены во второй части таблицы. Обратите внимание на то, что коды русских букв в этих кодировках различны.
Таблица 3.9
Кодировка Windows-1251
Таблица 3.10
Кодировка КОИ-8
Мы выяснили, что при нажатии на алфавитно-цифровую клавишу в компьютер посылается некоторая цепочка нулей и единиц. В текстовых файлах хранятся не изображения символов, а их коды.
При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст, причём изображения эти могут быть разнообразны и достаточно причудливы. Внешний вид выводимых на экран символов кодируется и хранится в специальных шрифтовых файлах. Современные текстовые процессоры умеют внедрять шрифты в файл. В этом случае файл содержит не только коды символов, но и описание используемых в этом документе шрифтов. Кроме того, файлы, создаваемые с помощью текстовых процессоров, включают в себя и такие данные о форматировании текста, как его размер, начертание, размеры полей, отступов, межстрочных интервалов и другую дополнительную информацию.
Cкачать материалы урока
Наверное, каждый пользователь ПК сталкивался с подобной проблемой: открываешь интернет-страничку или документ Microsoft Word — а вместо текста видишь иероглифы (различные «крякозабры», незнакомые буквы, цифры и т.д. (как на картинке слева…)).
Хорошо, если вам этот документ (с иероглифами) не особо важен, а если нужно обязательно его прочитать?! Довольно часто подобные вопросы и просьбы помочь с открытием подобных текстов задают и мне. В этой небольшой статье я хочу рассмотреть самые популярные причины появления иероглифов (разумеется, и устранить их).
Иероглифы в текстовых файлах (.txt)
Самая популярная проблема. Дело в том, что текстовый файл (обычно в формате txt, но так же ими являются форматы: php, css, info и т.д.) может быть сохранен в различных кодировках .
Чаще всего происходит одна вещь: документ открывается просто не в той кодировке из-за чего происходит путаница, и вместо кода одних символов, будут вызваны другие. На экране появляются различные непонятные символы (см. рис. 1)…
Рис. 1. Блокнот — проблема с кодировкой
Как с этим бороться?
На мой взгляд лучший вариант — это установить продвинутый блокнот, например Notepad++ или Bred 3. Рассмотрим более подробно каждую из них.
Notepad++
Один из лучших блокнотов как для начинающих пользователей, так и для профессионалов. Плюсы: бесплатная программа, поддерживает русский язык, работает очень быстро, подсветка кода, открытие всех распространенных форматов файлов, огромное количество опций позволяют подстроить ее под себя.
В плане кодировок здесь вообще полный порядок: есть отдельный раздел «Кодировки» (см. рис. 2). Просто попробуйте сменить ANSI на UTF-8 (например).
Рис. 2. Смена кодировки в Notepad++
После смены кодировки мой текстовый документ стал нормальным и читаемым — иероглифы пропали (см. рис. 3)!
Рис. 3. Текст стал читаемый… Notepad++
Bred 3
Еще одна замечательная программа, призванная полностью заменить стандартный блокнот в Windows. Она так же «легко» работает со множеством кодировок, легко их меняет, поддерживает огромное число форматов файлов, поддерживает новые ОС Windows (8, 10).
Кстати, Bred 3 очень помогает при работе со «старыми» файлами, сохраненных в MS DOS форматах. Когда другие программы показывают только иероглифы — Bred 3 легко их открывает и позволяет спокойно работать с ними (см. рис. 4).
Если вместо текста иероглифы в Microsoft Word
Самое первое, на что нужно обратить внимание — это на формат файла. Дело в том, что начиная с Word 2007 появился новый формат — « docx » (раньше был просто « doc «). Обычно, в «старом» Word нельзя открыть новые форматы файлов, но случается иногда так, что эти «новые» файлы открываются в старой программе.
Просто откройте свойства файла, а затем посмотрите вкладку « Подробно » (как на рис. 5). Так вы узнаете формат файла (на рис. 5 — формат файла «txt»).
Если формат файла docx — а у вас старый Word (ниже 2007 версии) — то просто обновите Word до 2007 или выше (2010, 2013, 2016).
Рис. 5. Свойства файла
Рис. 6. Word — преобразование файла
Чаще всего Word определяет сам автоматически нужную кодировку, но не всегда текст получается читаемым. Вам нужно установить ползунок на нужную кодировку, когда текст станет читаемым. Иногда, приходится буквально угадывать, в как был сохранен файл, чтобы его прочитать.
Рис. 7. Word — файл в норме (кодировка выбрана верно)!
Смена кодировки в браузере
Когда браузер ошибочно определяет кодировку интернет-странички — вы увидите точно такие же иероглифы (см. рис 8).
Рис. 8. браузер определил неверно кодировку
- Google chrome: параметры (значок в правом верхнем углу)/дополнительные параметры/кодировка/Windows-1251 (или UTF-8);
- Firefox: левая кнопка ALT (если у вас выключена верхняя панелька), затем вид/кодировка страницы/выбрать нужную (чаще всего Windows-1251 или UTF-8) ;
- Opera: Opera (красный значок в верхнем левом углу)/страница/кодировка/выбрать нужное.
PS
Таким образом в этой статье были разобраны самые частые случаи появления иероглифов, связанных с неправильно определенной кодировкой. При помощи выше приведенных способов — можно решить все основные проблемы с неверной кодировкой.
Какое минимальное число бит на символ надо выделить в памяти, если требуется использовать не менее 10 символов одновременно?
Вопрос 2
Сколько различных символов можно использовать при 9-битном коде (на каждый символ отводится 9 бит)?
Вопрос 3
Какой символ имеет код 50 в таблице ASCII?
Вопрос 4
Что можно сказать о таблице символов ASCII?
- это таблица всех символов, используемых на компьютере
- к ней относятся первые 128 символов
- это то же самое, что и кодовая страница
- это таблица американского стандартного кода для обмена информацией
- к ней относятся символы с кодами от 128 до 255
Вопрос 5
Отметьте все правильные утверждения.
- в текстовых файлах хранятся только коды символов
- изображения символов хранятся в специальных шрифтовых файлах
- кодовая страница содержит 256 символов
- кодировка ASCII содержит буквы русского алфавита
- кодировка ASCII содержит арабские цифры
Вопрос 6
Отметьте все правильные утверждения о кодировках UNICODE.
- они позволяют уменьшить объем файлов
- они, как правило, приводят к увеличению объема файла
- в них на символ отводится 8 бит
- в них на символ может отводиться больше 8 бит
- можно использовать больше 256 символов одновременно
Вопрос 7
Какие кодировки с русскими буквами используются в сети Интернет?
- кодировка MS DOS (кодовая страница 866)
- кодировка Windows (кодовая страница 1251)
- кодировка UTF-8 (UNICODE)
- кодировка КОИ-8
- одна русская кодировка
Вопрос 8
Определите, чему равен информационный объём (в байтах) следующего высказывания Рене Декарта, закодированного с помощью 16-битной кодировки UNICODE:
Вопрос 9
Вопрос 10
Вопрос 11
Определите десятичный ASCII-код символа «y», если известны следующие коды:
Вопрос 12
Вопрос пользователя
Здравствуйте.
Подскажите пожалуйста, почему у меня некоторые странички в браузере отображают вместо текста иероглифы, квадратики и не пойми что (ничего нельзя прочесть). Раньше такого не было.
Заранее спасибо.
Доброго времени суток!
Действительно, иногда при открытии какой-нибудь интернет-странички вместо текста показываются различные "крякозабры" (как я их называю), и прочитать это нереально.
Происходит это из-за того, что текст на страничке написан в одной кодировке (более подробно об этом можете узнать из Википедии ), а браузер пытается открыть его в другой. Из-за такого рассогласования, вместо текста — непонятный набор символов.
Исправляем иероглифы на текст
Браузер
Скажу даже больше, в некоторых версиях браузера уже убрали выбор кодировки, и для "ручной" настройки этого параметра нужно скачивать дополнения, или лезть в дебри настроек за 10-ток галочек.
Вместо текста одни лишь крякозабры // Браузер выставил кодировку неверно!
Поэтому, я рекомендую в ручном режиме попробовать их обе. Для этого нам понадобиться браузер MX5 (ссылка на офиц. сайт). Он один из немногих позволяет в ручном режиме выбирать кодировку (при необходимости):
Браузер MX5 — выбор кодировки UTF8 или авто-определение
Теперь отображается русский текст норм.
Текстовые документы
Очень много вопросов по крякозабрам задаются при открытии каких-нибудь текстовых документов. Особенно старых, например, при чтении Readme в какой-нибудь программе прошлого века (скажем, к играм) .
Разумеется, что многие современные блокноты просто не могут прочитать DOS'овскую кодировку, которая использовалась ранее. Чтобы решить сию проблему, рекомендую использовать редактор Bread 3.
Иероглифы при открытии текстового документа
Далее в Bred 3 есть кнопка для смены кодировки: просто попробуйте поменять ANSI на OEM — и старый текстовый файл станет читаемым за 1 сек.!
Исправление иероглифов на текст
Пример смены кодировки показан ниже: чтобы прочитать текст, достаточно в примере ниже, достаточно было сменить кодировку ANSI на UTF-8.
Смена кодировки в блокноте Notepad++
Пример работы ПО "Штирлиц"
BAT-файлы (скрипты)
На скрине видно, что вместо русского текста отображаются различные квадратики, буквы "г" перевернутые, и пр. иероглифы.
Как выглядит русский текст при выполнении BAT-файла
- в начало BAT-файла добавить код @chcp 1251 ;
- установить программу Notepad++ и в меню выбрать OEM-866: "Кодировки/Кодировки/Кириллица/OEM-866" ;
- установить программу Akelpad, в разделе "Кодировки" выбрать "Сохранить в DOS-866" .
Документы MS WORD
Очень часто проблема с крякозабрами в Word связана с тем, что путают два формата Doc и Docx . Дело в том, что с 2007 года в Word (если не ошибаюсь) появился формат Docx (позволяет более сильнее сжимать документ, чем Doc, да и надежнее защищает его).
Так вот, если у вас старый Word, который не поддерживает этот формат — то вы, при открытии документа в Docx, увидите иероглифы и ничего более.
Так же при открытии любого документа в Word (в кодировке которого он "сомневается"), он на выбор предлагает вам самостоятельно указать оную. Пример показан на рисунке ниже, попробуйте выбрать:
- Widows (по умолчанию);
- MS DOS;
- Другая.
Переключение кодировки в Word при открытии документа
Окна в различных приложениях Windows
Бывает такое, что какое-нибудь окно или меню в программе показывается с иероглифами (разумеется, прочитать что-то или разобрать — нереально).
Языки и региональные стандарты в Windows
Чтобы открыть меню настроек:
- нажмите Win+R ;
- введите intl.cpl , нажмите Enter.
intl.cpl - язык и регион. стандарты
Формат - русский / Россия
Во вкладке "Местоположение" — укажите "Россия" .
И во вкладке "Дополнительно" установите язык системы "Русский (Россия)" .
После этого сохраните настройки и перезагрузите ПК. Затем вновь проверьте, нормально ли отображается интерфейс нужной программы.
Текущий язык программ
PS
И напоследок, наверное, для многих это очевидно, и все же некоторые открывают определенные файлы в программах, которые не предназначены для этого: к примеру в обычном блокноте пытаются прочитать файл DOCX или PDF.
Естественно, в этом случае вы вместо текста будут наблюдать за крякозабрами, используйте те программы, которые предназначены для данного типа файла (WORD 2016+ и Adobe Reader для примера выше).
Читайте также: