Почему при кодировании текстовой информации в компьютере в большинстве кодировок используется 256
Кодирование текстовой информации — очень распространенное явление. Один и тот же текст может быть закодирован в нескольких форматах. Принято считать, что кодирование текстовой информации появилось с приходом компьютеров. Это и так и не так одновременно. Кодировка в том виде, в котором мы ее знаем, действительно к нам пришла с приходом компьютеров. Но над самим процессом кодирования люди бьются уже много сотен лет. Ведь, по большому счету, сама письменность уже является способом закодировать человеческую речь, для ее дальнейшего использования. Вот и получается, что любая окружающая нас информация никогда не бывает представленной в чистом виде, потому что она уже каким-то образом закодирована. Но сейчас не об этом.
Кодирование текстовой информации
Самый распространенный способ кодирования текстовой информации — это ее двоичное представление, которое сплошь и рядом используется в каждом компьютере, роботе, станке и т. д. Все кодируется в виде слов в двоичном представлении.
Сама технология двоичного представления информации зародилась еще задолго до появления первых компьютеров. Среди первых устройств, которые использовали двоичный метод кодирования, был аппарат Бодо — телеграфный аппарат, который кодировал информацию в 5 битах в двоичном представлении. Суть кодировки заключалась в простой последовательности электрических импульсов:
- 0 — импульс отсутствует;
- 1 — импульс присутствует.
В компьютерный мир такая кодировка пришла вместе с персонализацией самих компьютеров. То есть в первых компьютерах не было такой кодировки. Но как только компьютеры стали уходить «в массы», то резко обнаружилась потребность обрабатывать компьютерами большое количество именно текстовой информации, которую нужно было как-то кодировать. Тенденция обрабатывать большое количество текстовой информации сохранилась и в современных устройствах.
Так получилось, что двоичное кодирование в компьютерах связано только с двумя символами «0» и «1», которые выстраиваются в определенной логической последовательности. А сам язык подобной кодировки стал называться машинным.
Кодирование текстовой информации и компьютеры
Если смотреть на текст глазами компьютера, то в тексте нет предложений, абзацев, заголовков и т. д., потому что весь текст просто состоит из отдельных символов. Причем символами будут являться не только буквы, но и цифры, и любые другие специальные знаки (+, -,*,= и т. д.). Что самое интересное, даже пробелы, перенос строки и табуляция — для компьютера это тоже отдельные символы.
Для справки. Есть уникальный язык программирования, который в качестве своих операторов использует только пробелы, табуляции и переносы строки. Практического применения этот язык не имеет, но он есть.
Кодирование текстовой информации в компьютерных устройствах сводится к тому, что каждому отдельному символу присваивается уникальное десятичное значение от 0 и до 255 или его эквивалент в двоичной форме от 00000000 и до 11111111. Люди могут различать символы по их внешнему виду, а компьютерное устройство только по их уникальному коду.
Рассмотрите, как происходит процесс. Мы нажимаем нужный нам символ на клавиатуре, ориентируясь на их внешний вид. В оперативную память компьютера он попадает в двоичном представлении, а когда компьютер его выводит нам на экран, то происходит процесс декодирования, чтобы мы увидели знакомый нам символ.
Кодирование текстовой информации и таблицы кодировок
Таблица кодировки — это место, где прописано какому символу какой код относится. Все таблицы кодировки являются согласованными — это нужно, чтобы не возникало путаницы между документами, закодированными по одной таблице, но на разных устройствах.
На сегодняшний день существует множество таблиц кодировок. Из-за этого часто возникают проблемы с переносом текстовых документов между устройствами. Так получается, что если текстовая информация была закодирована по одной какой-то таблице, то и раскодирована она может быть только по этой таблице. Если попытаться раскодировать другой таблицей, то в результате получим только набор непонятных символов, но никак не читабельный текст.
ответьте пожалуста на вопросы)))только полным ответом..очень нужно))))
1) почему при кодировании текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы.
2) С какой целью ввели кодировку Unicode, которая позволяет закодировать 65 536 различных символов.
Очень срочно. задали сделать а я не знаюю)))))подскажите. только полным ответом)))))
1)При кодировании текстовой информации используется 256 символов потому-что текстовая информация не пишется буквами. А кодируется в системе кодом-0 и 1.Он может принимать любое количество нолей и единиц. И это будет какой-нибудь символ. Короче говоря, 256 символов-это "компьютерный алфавит"1 Почему при кодировании текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы?
ОТВЕТ (Текстовая информация (прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы) содержит 256 различных знаков.) ;
2 С какой целью ввели кодировку Unicode, которая позволяет закодировать 65 536 различных символов?
ОТВЕТ (чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты).
ответ в определении )))
1. Букв 33, но с учётом загланых и строчных уже 66, плюс знаки препинания, пробелы, плюс, минус, равно, тире, скобки, маркеры для списков и т. д.
В связи с двоичной системой счёта кодировать можно только определёное число цифр 2 в какой-то степени.
2^5=32 - этого мало даже для строчных букв.
2^6=64 - этого мало с учётом строчных и заглавных букв.
2^7=128 - этого мало с учётом спецсимволов
2^8=256 - ну это нормально.
2. Кодировка Unicod введена с целью поддержки большего колическва символов. Например для китайского языка она просто необходима.
Для русского языка она не представляет крайней нужды, но благодаря её можно работать более удобно.
Например вставить знак градуса без редактора формул °, или какую-гибудб греческую букву. А если документ в формате txt? то это вобще единственный способ их вставить.
Таким образом, кодировка Unicod была создана исключительно для увелечения символов с целью удобства в работе.
1) Когда компьютеры были большими, они оперировали байтами - 8 бит, 256 комбинаций. Удобно: 1 байт - 1 символ. Первый 128 отводились под буквы английского алфавита, цифры, знаки препинания и пр. Вторые 128 - под служебную информацию. Сейчас во вторых 128 символах размещают, как правило, буквы национальных алфавитов. Поэтому существуют "русифицированные" шрифты. Такой набор из 256 символов называется кодовой таблицей.
Существуют несколько кодовых таблиц (кодировок) для русского языка, например, KOI-8R и Windows-1251. Если текст набран в одной кодировке, то прочитать его в другой невозможно - позиции букв в таблице не совпадают. Это только одна из проблем маленькой (256 символьной) таблицы.
2) Чтобы решить многие проблемы с кодировкой ввели кодовую таблицу Unicode, в которой под символ отведено уже 2 байта, и одна таблица содержит в себе все символы почти всех национальных алфавитов в строго определенной комбинации. Таким образом документ в Unicode будет везде читаться одинаково.
Почему при кодирование текстовой информации в компьютере в большинстве кодировок используют 256 символов хотя в русском алфавите 33 буквы.
Текстовая информация (прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы) содержит 256 различных знаков.
Двоичный код каждого символа при кодировании текстовой информации ( в кодах ASCII) занимает в памяти персонального компьютера?
Двоичный код каждого символа при кодировании текстовой информации ( в кодах ASCII) занимает в памяти персонального компьютера.
Помогите, пожалуйста срочно?
Помогите, пожалуйста срочно!
У меня самостоятельная завтра!
1)В каком формате нужно сохранить файл чтобы он мог быть прочитан в других приложениях с сохранением форматирования?
2)почему для кодирования текстовой информации в компьютере перешли от однобайтовых кодировок к двухбайтовой кодировке?
традиционно для кодирования 1 символа используется 8 бит.
4. Почему в компьютерах используется двоичная знаковая система для кодирования информации?
4. Почему в компьютерах используется двоичная знаковая система для кодирования информации?
Почему в компьютерах используется двоичная знаковая система для кодирования информации?
Почему в компьютерах используется двоичная знаковая система для кодирования информации?
Почему при кодировании текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы?
Почему при кодировании текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы?
Люди, срочно нужно ответить на вопрос!
Определите объем информации в слове ВАСЯ, для кодирования которого использовался алфавит русского языка, состоящий из 32 прописных букв?
Определите объем информации в слове ВАСЯ, для кодирования которого использовался алфавит русского языка, состоящий из 32 прописных букв.
Какая система счисления используется для кодирования информации в компьютере?
Какая система счисления используется для кодирования информации в компьютере?
А)Почему при кодировнии текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы?
А)Почему при кодировнии текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы?
Б)С какой целью ввели кодировку Unicode, которая позволяет кодировать 65536 различных символов?
Кодирование текстовой информации
Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества - письменность и арифметика - есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.
Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.
Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).
Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.
С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.
Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.
В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.
Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.
Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.
Виды таблиц кодировок
Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.
Для разных типов ЭВМ используются различные таблицы кодировки.
В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange - Американский стандартный код для информационного обмена), кодирующая первую половину символов с числовыми кодами от 0 до 127 ( коды от 0 до 32 отведены не символам, а функциональным клавишам).
Таблица кодов ASCII делится на две части.
Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).
Структура таблицы кодировки ASCII
Порядковый номер
Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.
Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Символ 32 - пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.
Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.
Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.
Для букв русского алфавита также соблюдается принцип последовательного кодирования.
От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").
Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.
Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.
Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.
С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.
Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.
Внутреннее представление слов в памяти компьютера
с помощью таблицы ASCII
Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать - на экране монитора видна какая-то "абракадабра". Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.
Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.
Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.
К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.
Подготовила: учитель информатики Рыбалкина И.Г.
Тема урока: Кодирование текстовой информации. Инструктаж по ТБ. Практическая работа №1 «Кодировки русских букв»
Познакомить учащихся со способами кодирования информации в компьютере
Рассмотреть примеры решения задач
Используя активные формы работы на уроке, создать практически для каждого ученика ситуацию успеха
Воспитание познавательного интереса учащихся, умения слушать, культуры межличностных взаимоотношений.
Оборудование: доска, презентация
Актуализация и систематизация знаний. (Усный опрос)
Изучение нового материала.
Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.
Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.
Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов). Для кодирования одного символа требуется один байт информации.
Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. (28=256)
Кодирование заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).
В настоящее время существуют пять различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO) поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой. Для разных типов ЭВМ используются различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standart Code for Information Interchange) – американский стандартный код для информационного обмена.
Рисунок 1. Десятичные коды некоторых символов в различных кодировках
Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.
Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита.
В последние годы получил широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536 ) различных символов.
Закрепление изученного материала
Практическая работа . учебник стр.15
Итог урока. Выставление
Ответить на вопросы (в скобках ответ на вопрос).
Какой принцип кодирования текстовой информации используется в компьютере? (используется двоичный принцип кодирования информации, используют 0 и 1, для кодирования одного символа используется 1 байт информации = 8 битам);
Почему при кодировании текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы? (Текстовая информация (прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы) содержит 256 различных знаков.);
Как называется международная таблица кодировки символов?( ASCII);
С какой целью ввели кодировку Unicode, которая позволяет закодировать 65 536 различных символов? (чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты).
Выставление оценок за урок (за практическую работу за компьютером).
Домашнее задание. Конспект + стр.14 учебника
Учащимся дается индивидуальная карточка, в которой нужно подчеркнуть фразы, характеризующие работу ученика на уроке по трем направлениям.
Читайте также: