Какой размер алфавита используемого в компьютерах для представления текстов
Кодирование текстовой информации — очень распространенное явление. Один и тот же текст может быть закодирован в нескольких форматах. Принято считать, что кодирование текстовой информации появилось с приходом компьютеров. Это и так и не так одновременно. Кодировка в том виде, в котором мы ее знаем, действительно к нам пришла с приходом компьютеров. Но над самим процессом кодирования люди бьются уже много сотен лет. Ведь, по большому счету, сама письменность уже является способом закодировать человеческую речь, для ее дальнейшего использования. Вот и получается, что любая окружающая нас информация никогда не бывает представленной в чистом виде, потому что она уже каким-то образом закодирована. Но сейчас не об этом.
Кодирование текстовой информации
Самый распространенный способ кодирования текстовой информации — это ее двоичное представление, которое сплошь и рядом используется в каждом компьютере, роботе, станке и т. д. Все кодируется в виде слов в двоичном представлении.
Сама технология двоичного представления информации зародилась еще задолго до появления первых компьютеров. Среди первых устройств, которые использовали двоичный метод кодирования, был аппарат Бодо — телеграфный аппарат, который кодировал информацию в 5 битах в двоичном представлении. Суть кодировки заключалась в простой последовательности электрических импульсов:
- 0 — импульс отсутствует;
- 1 — импульс присутствует.
В компьютерный мир такая кодировка пришла вместе с персонализацией самих компьютеров. То есть в первых компьютерах не было такой кодировки. Но как только компьютеры стали уходить «в массы», то резко обнаружилась потребность обрабатывать компьютерами большое количество именно текстовой информации, которую нужно было как-то кодировать. Тенденция обрабатывать большое количество текстовой информации сохранилась и в современных устройствах.
Так получилось, что двоичное кодирование в компьютерах связано только с двумя символами «0» и «1», которые выстраиваются в определенной логической последовательности. А сам язык подобной кодировки стал называться машинным.
Кодирование текстовой информации и компьютеры
Если смотреть на текст глазами компьютера, то в тексте нет предложений, абзацев, заголовков и т. д., потому что весь текст просто состоит из отдельных символов. Причем символами будут являться не только буквы, но и цифры, и любые другие специальные знаки (+, -,*,= и т. д.). Что самое интересное, даже пробелы, перенос строки и табуляция — для компьютера это тоже отдельные символы.
Для справки. Есть уникальный язык программирования, который в качестве своих операторов использует только пробелы, табуляции и переносы строки. Практического применения этот язык не имеет, но он есть.
Кодирование текстовой информации в компьютерных устройствах сводится к тому, что каждому отдельному символу присваивается уникальное десятичное значение от 0 и до 255 или его эквивалент в двоичной форме от 00000000 и до 11111111. Люди могут различать символы по их внешнему виду, а компьютерное устройство только по их уникальному коду.
Рассмотрите, как происходит процесс. Мы нажимаем нужный нам символ на клавиатуре, ориентируясь на их внешний вид. В оперативную память компьютера он попадает в двоичном представлении, а когда компьютер его выводит нам на экран, то происходит процесс декодирования, чтобы мы увидели знакомый нам символ.
Кодирование текстовой информации и таблицы кодировок
Таблица кодировки — это место, где прописано какому символу какой код относится. Все таблицы кодировки являются согласованными — это нужно, чтобы не возникало путаницы между документами, закодированными по одной таблице, но на разных устройствах.
На сегодняшний день существует множество таблиц кодировок. Из-за этого часто возникают проблемы с переносом текстовых документов между устройствами. Так получается, что если текстовая информация была закодирована по одной какой-то таблице, то и раскодирована она может быть только по этой таблице. Если попытаться раскодировать другой таблицей, то в результате получим только набор непонятных символов, но никак не читабельный текст.
В данный момент вы не можете посмотреть или раздать видеоурок ученикам
Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.
Получите невероятные возможности
Конспект урока "Представление текста в компьютере"
· использование таблицы кодировок;
· информационный объём текста.
Компьютер может работать с пятью видами информации:
Одним из самых массовых приложений ЭВМ является работа с текстами.
Имея компьютер, можно создавать тексты, не тратя на это много времени и бумагу. Носителем текста становится память компьютера. Текст на внешних носителях сохраняется в виде файла.
Как вы уже знаете, вся информация, независимо от того, какая она графическая, видео или звуковая, представляется в компьютере с помощью чисел, это всего два символа двоичного кода, 0 и 1, которые легко перевести в сигналы.
Прежде всего, вспомним о байтовом принципе организации памяти компьютера.
Как вы помните, каждая клетка обозначает бит памяти. Восемь подряд идущих битов образуют байт памяти. Байты пронумерованы. Порядковый номер байта определяет его адрес в памяти компьютера. По этим адресам процессор обращается к данным, считывает их или записывает в память.
Схема представления текста в памяти компьютера очень проста. Каждая буква алфавита, цифра, знак препинания или любой другой символ необходимый для записи текста обозначается определённым двоичным кодом, длина которого фиксирована.
Например, в системах кодировки Windows – 1251 и KОИ-8 каждый символ заменяется на восьмиразрядное целое положительное двоичное число, оно хранится в одном байте памяти. Это число является порядковым номером символа в кодовой таблице.
Мы уже говорили о том, что разрядность ячейки памяти i и количество различных целых положительных чисел, которые можно записать в эту ячейку n связаны соотношением:
Восьмиразрядный двоичный код позволяет получить 256 различных кодовых комбинаций, то есть 2 8 = 256.
С помощью 256 кодовых комбинаций можно закодировать все символы двух алфавитов (английского и русского) и все остальные дополнительные символы, расположенные на клавиатуре компьютера — цифры и знаки арифметических операций, знаки препинания и скобки и так далее, а также ряд управляющих символов, без которых невозможно создание текстового документа (удаление предыдущего символа, переход на новую строку, пробел и другие).
Мощность алфавита равна 256 символов. Сколько Килобайт памяти потребуется для сохранения 160 страниц текста, содержащего в среднем 192 символа на каждой странице?
В современном мире около 6700 живых языков и около 25 алфавитов.
Он является результатом сотрудничества Международной организации по стандартизации (ISO) с ведущими производителями компьютеров и программного обеспечения.
Этот стандарт был предложен в 1991 году некоммерческой организацией «Консорциум Юникода». С помощью этого стандарта можно закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.
В Юникод каждый символ кодируется 16-битовым двоичным кодом, то есть два байта на символ. В данном случае можно закодировать 2 16 = 65536 различных символов.
Однако в последнее время объединение Unicode приступило к кодированию письменности мёртвых языков и в этом случае 16-битового кодирования уже недостаточно. Поэтому Unicode приступил к освоению новых кодов.
Текстовый документ, который хранится в памяти компьютера, состоит из кодов символьного алфавита, кодов управления форматами текста. Также текстовые процессоры, например, Microsoft Word позволяют включать и редактировать такие объекты как таблицы, оглавления, ссылки и гиперссылки, историю вносимых изменений и так далее. Все это также представляется в виде последовательности байтовых кодов.
В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:
• 8 бит или 1 байт — если используется восьмиразрядная кодировка;
• 16 бит или 2 байта — если используется шестнадцатиразрядная кодировка.
Информационным объёмом фрагмента текста будем называть количество битов, байтов или производных единиц (килобайтов, мегабайтов и так далее), необходимых для записи этого фрагмента заранее оговорённым способом двоичного кодирования.
Информационный объем текста, набранного на компьютере с использованием кодировки UNICODE равен 4 Килобайта. Определить количество символов в тексте.
Как мы уже говорили бывают случаи, когда, работая с текстом, программа может запросить воспользоваться другой кодировкой, например, текст в восьмибитном коде Windows перекодировать в кодировку Unicode. Давайте выясним, что произойдёт с информационным объёмом текста.
Итак, рассмотрим такой пример.
Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.
В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:
• 16 бит (2 байта) — если используется 16-разрядная кодировка.
Информационный объём фрагмента текста — это количество битов, байтов и производных единиц, необходимых для записи фрагмента оговорённым способом кодирования.
1) Совокупность документов,связанных между собой взаимными ссылками в единый текст.
2) Раньше 256.
3) 1 байт=1 символу. Но сейчас возможны варианты где и по 2,3,4.
4) Это таблица, где каждой букве алфавита,а также цифрам и специальным знакам, присвоен уникальный номер
UNICODE-8
5)Твоя фамилия мне не известна.
6) Это файл компьютера. В нём содержатся текстовые данные.
7) Для создания, редактирования и оформления текста.
8) Название, количество символов и размер файла.
9)
10) Печатание текста, форматирование, выравнивание, автозамена, увеличение или уменьшение шрифта, копировать/вырезать/вставить, заменить, орфография.
11) По сути их 2. 1-это Антиква(serif) и 2-это (san-serif).
12) Если по простому. Это полное удаление всего. Например всех файлов на диске или ф лешки.
13) Кусок текста. Например, абзац, несколько предложений, слов.
14) Это изменение информации.
15) Размер шрифта. Например 12pt или 16pt.
А где номер? я отвечу) пиши в ЛС) если не получится то напиши в интернете) проверено
1. a=10 ( не меняется значение)
2. a=12 (т.к. если 10>5 то а=12)
3. a=3 (если 10<5 то +15 иначе -7)
4. а=22 (тоже самое)
5. a=3 (тоже самое)
6. а=22 (удивительно, но все аналогично)
Что-то такое получилось, пиши в комменты если что не так:
var
a,b,k:longint;
begin
b:=1;
k:=0;
while b<10000 do
begin
read(a);
b:=b*a;
k:=k+1;
end;
writeln('Kol:',k);
writeln('Number:',b);
readln
end.
Var St: string;
z:string[10];
x:string[2];
i,j,k,m: integer; //новые переменные
Begin
Write('введите строку текста - St');
Readln(St);
k:=0; //обнуляем на всякий случай
z:='0123456789';
i:=1;
for j:=1 to length(St) do //начало
begin;
for m:=1 to 10 do
if St[j]=z[m] then inc(k);
end;
if k=0 then
begin;
writeln('в тексте нет цифр');
exit;
end; //конец
while i<=length(st)-1 do
begin
x:=copy(st,I,2);
if (x[1]=x[2]) and (pos(x[1],z)<>0) then
begin
delete(st,i,2);
insert('две',st,i);
i:=i+1;
end;
i:=i+1;
end;
writeln('преобразованная строка ', st);
End.
Это просто сделано, что бы не путаться программистам. Это просто число, которое не будет изменяться в процессе программы. Например если в программе нужно вычислить площадь круга, то понадобиться число ПИ и можно в начале написать: "const P = 3.14". И все.
Помогите решить задачку и объясните как и почему вы так её решили. Миша работал с файлом С:\химия\органическая\11класс\задание5.
Исполнитель КАЛЬКУЛЯТОР имеет только две команды, которым присвоены номера:1. Вычти 12. Умножь на 2Выполняя команду номер1, КАЛЬ
Информатика! ВОПРОСЫ ЛЕГКИЕ 1)Как называется область экрана, выделенная для работы программы? 2)Как называется объект, содержащ
Как можно научиться программированию на visual Basik 6.0 не зная английского языка?
А теперь от обсуждения вопроса о том , что представляет собой компьютер, перейдем к ответу на вопрос, что умеет делать компьютер . Начиная с этой глав ы, мы будем знакомиться с применением ЭВМ .
Первая область применения , которую мы рассмотрим, — работа с текстами . При ручной записи часто неприятную проблему составляет необходимость исправлять ошибки или вносить какие-то изменения в текст . При этом приходится зачеркивать, стирать , заклеивать , что порт и т вид текста . Необходимость переписывать текст ведет к потере времени и лишнему расходу бу ма г и.
Имея компьюте р, можно создавать текст ы, не тратя на это лишнее время и бумагу . Носителем текста становится память ЭВМ . Конечно, для длительного его сохранения это должна быть внешняя память — магнитные или оптические д иски ,
Текст на внешних носителях сохраняется
в виде файла .
Есть ряд преимуществ сохранения текстов в файловой форме на компьютерных носителях по сравнению с бумагой . Во-первых , это компактное размещение . Например , текст толстой книги в 500 страниц помещается на маленькую дискету диаметром 9 см , А если использовать специальные методы сжатия , то размер текста, помещающегося на дискете, можно увеличить в несколько раз .
Во-вторых , если данный текст становится ненужным, то дискету, как бумагу , не надо выбрасывать или сдавать в макулатуру. С нее с помощью компьютера легко стереть этот текст и на его место записать новый .
В-третьих , с помощью компьютера легко скопировать файлы в любом количестве на другие носители .
В-четвертых, файл с текстом можно быстро переслать другому человеку по электронной почте . Для этого ваш компьютер и компьютер адресата должны иметь связь через компьютерную сеть.
Главное неудобство хранения текстов в файлах состоит в том , что прочитать их можно только с помощью компьютер а. Человек может просмотреть текст на экране дисплея или напечатать на бумаге, используя принтер .
Уже сейчас имеются некоторые издания , которые не печатаются на бумаге , а хранятся и распространяются в форме файлов . Когда компьютеры станут такими же обычными предметами в каждом дом е, как сейчас радио и телевизор, то безбумажных изданий станет еще больше , Представьте себе, что вся ваша личная библиотека разместится в коробке с дисками. Причем по объему информации она будет не меньше , чем сотни книг, собранных родителями . А экономя бумагу , мы сохраняем леса на нашей планете.
Как представляются тексты в памяти компьютера
А теперь « заглянем » в память компьютера и разберемся , как же представлена в нем текстовая информация.
Текстовая информация состоит из символов: букв , цифр, знаков препинания, скобок и других. Мы уже говорили, что множество всех символов, с помощью которых записывается текст, называется алфавитом , а число символов в алфавите — его мощностью.
Для представления текстовой информации в компьютере используется алфавит мощностью 25 6 символов. Мы знаем, что один символ такого алфавита несет 8 битов информации: 2 = 256. 8 битов = 1 байт, следовательно:
Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.
Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу .
Понятно, что это дело условное , можно придумать множество способов кодировани я.
Все символы компь ю терного алфавита пронумерованы от О до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код — просто порядковый номер символа в двоичной системе счисления.
Таблица , в которо й всем символам компьютерного алфавита поставлены в соответствие порядковые номера , называется таблицей кодировки .
Для разных типов ЭВМ используются различные таблицы кодировки , С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII ( American S ta nda r t Code for In formation Interchange — американский стандартный код для информационного обмена).
Точнее говор я, стандартной в этой таблице является только первая половина, т. е. символы с номера м и от нуля (двоичный код 00000000) до 127 ( 01111111 ) , Сюда входят буквы латинского алфавита , цифры, знаки препинания, скобки и некоторые другие символ ы. Остальные 128 кодов, начиная с 10000000 и кончая 11111111, используются в разных вариантах. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.
В табл . 3 .1 приведена стандартная часть кода ASCII (коды от 0 до 31 имеют особое назначение , не отражаются какими - либо знаками и в данную таблицу не включены). Здесь приведены десятичные номера символов, символы, двоичные к оды.
Обрат и те внимание на то, что в этой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке . Расположение цифр также упорядочено по возрастанию значений . Это правило соблюдается и в других таблицах кодировки и называется принципом последовательного ко дирования алфавитов . Благодаря этому понятие « алфавитный порядок » сохраняется и в машинном представлении символьной информации. Для русского алфавита принцип последовательного кодирования соблюдается не всегда.
Запишем, например, внутреннее представление слова « f ile ». В памяти компьютера оно займет 4 байта со следующим содержание м:
01100110 01101001 01101100 01100101 .
Л теперь попробуйте решить обратную задач у. Какое слово записано следующим двоичным кодом ;
01100100 01101001 01110011 01101011 ?
В табл. 3 . 2 приведен один из вариантов второй половины кодовой таблицы ASCII , который называется альтернативной кодировкой. Видно, что в ней для букв русского алфави та соблюдается принцип последовательного кодирования .
Тексты вводятся в память компьютера с помощью клавиатуры . На клавишах написаны привычные нам буквы , цифры , знаки препинания и другие символы. В оперативную память они попадают в форме двоичного код а.
Из памяти компьютера текст может быть выведен на экран или на печать в символьной форме. Но для долговременного хранения его следует записать на внешний носитель в виде файла .
Что такое гипертекст
Наиболее существенное отличие компьютерного текста от бумажного вы почувствуете, если встретитесь с тексто м, информация в котором организована по принципу гипертекста .
Гипертекст — это текст , организованный так, что его можно просматривать в последовательности смысловых связей между его отдельными фрагментам и. Такие связи называются гиперсвязями (гиперссылками) .
Чаще всего по принципу гипертекста организованы компьютерные справочники, энциклопедии , учебники . Такую « книгу » можно читать не только в обычном порядке , « листая страницы » на экране, но и перемещаясь по смысловым связям в произвольном порядке. Например , при изучении на уроке физики темы « Второй закон Ньютона » с помощью компьютерного учебника ученик прочитал определение зако н а « Сила равна произведению массы на ускорение ».
Ему захотелось вспомнить определение масс ы. Указав в тексте на слово «масса» (связанные понятия обычно выделяются цветом или подчерк иванием , а указывать на них удобно с помощью мыши) , он быстро перейдет к разделу учебника , где рассказывается о массе тел. Прочитав определение «Мас са — мера инертности тела », ученик может пожелать уточ нить, что такое инертность. По гиперссылке он быстро выйдет на нужный раздел .
Коротко о главном
С помощью компьютера можно создавать текстовые доку
менты и хранить их на носителях внешне й памяти в виде файло в.
Преимущества файлового хранения текстов: возможность редактирования, быстрого копирования на другие носители; возможность передачи текста по линиям компьютерной связ и.
Каждый символ текста кодируется восьмиразрядным двоичным кодом . Для представления текстов в компьютере используется алфавит мощностью 256 символов,
В таблице кодировки каждому символу алфавита постав
лен в соответствие порядковый номер и восьмиразрядный двоичный ко д. Международным стандартом является код ASCII — американский стандартный код для информационного обмена.
Гипертекст — это текст, организованный так , что его можно просматривать в последовательности смысловых связей между его отдельными фрагментам и. Такие связи называются гиперсвязями (гиперссылками). Гиперссылка позволяет быстро перейти к просмотру того раздела , на который она указывает .
Вопросы и задания
1.В чем преимущества хранения текстов в файлах по сравнению с бумаж ным способом хранения?
2.Что такое гипертекст? Какие возможности предоставляет гипертекст пользовател ю?
3. Каков размер алфавита , используемого в компьютерах для п редставления текстов?
4. Сколько места в памяти занимает код одного символа?
5. Что такое таблица кодировк и? Как называется таблица код ировки, используемая в большинстве современных п ерсональных компьютеров?
6. Закодируйте в двоичной форме свою фамилию , записанную латинскими буквами, используя табл. 3.1.
7. Познакомьтесь с аль терн а тивн ой частью кода ASCII, и спользу емой в школьных компьютерах. Выясните , соблюдается ли принцип последовательного кодирования алфавита из русских букв < их называют кириллицей).
Закодируйте короткую фразу на русском языке. Обменяйтесь полученными кодами с соседом по парте и декодируйте тексты друг друга.
Читайте также: