Какие единицы не используются для измерения информации с точки зрения компьютерного подхода
Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.
§ 2. Подходы к измерению информации
Информатика. 10 класса. Босова Л.Л. Оглавление
Информация и её свойства
Информация и её свойства являются объектом исследования целого ряда научных дисциплин, таких как:
♦ теория информации (математическая теория систем передачи информации);
♦ кибернетика (наука об общих закономерностях процессов управления и передачи информации в машинах, живых организмах и обществе);
♦ информатика (изучение процессов сбора, преобразования, хранения, защиты, поиска и передачи всех видов информации и средств их автоматизированной обработки);
♦ семиотика (наука о знаках и знаковых системах);
♦ теория массовой коммуникации (исследование средств массовой информации и их влияния на общество) и др.
Рассмотрим более детально подходы к определению понятия информации, важные с позиций её измерения:
1) определение К. Шеннона, применяемое в математической теории информации;
2) определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров.
2.1. Содержательный подход к измерению информации
Клод Элвуд Шеннон (1916-2001) — американский инженер и математик. Является основателем теории информации, нашедшей применение в современных высокотехнологических системах связи. В 1948 году предложил использовать слово «бит» для обозначения наименьшей единицы информации.
Информация — это снятая неопределённость. Величина неопределённости некоторого события — это количество возможных результатов (исходов) данного события.
Такой подход к измерению информации называют содержательным.
Пример 1. Допустим, вы подбрасываете монету, загадывая, что выпадет: «орёл» или «решка». Перед подбрасыванием монеты неопределённость знания о результате равна двум. Действительно, есть всего два возможных результата этого события (бросания монеты). Эти результаты мы считаем равновероятными, т. к. ни один из них не имеет преимущества перед другим.
Итак, количество возможных результатов (исходов) события, состоящего в том, что книга поставлена в шкаф, равно восьми: 1, 2, 3, 4, 5, 6, 7 и 8.
Метод поиска, на каждом шаге которого отбрасывается половина вариантов, называется методом половинного деления. Этот метод широко используется в компьютерных науках.
Пример 3. О результатах футбольного матча между клубами «Спартак» и «Динамо» известно, что больше трёх мячей никто не забил. Всего возможных вариантов счёта матча — 16:
Здесь первая цифра в каждой паре соответствует количеству мячей, забитых командой «Спартак», вторая — командой «Динамо».
Будем считать все варианты равновероятными и отгадывать счёт, задавая вопросы, на которые можно ответить только «да» или «нет». Вопросы будем формулировать так, чтобы количество возможных вариантов счёта каждый раз уменьшалось вдвое. Это позволит нам:
1) обойтись минимальным количеством вопросов;
Вопрос 1. «Спартак» забил больше одного мяча? Предположим, получен ответ «Нет». Такой ответ позволяет не рассматривать варианты, расположенные в нижней части таблицы, т. е. сокращает количество возможных исходов в 2 раза:
Вопрос 2. «Спартак» забил один мяч? Предположим, получен ответ «Да». Такой ответ позволяет не рассматривать варианты, расположенные в верхней строке таблицы, т. е. сокращает количество возможных исходов ещё в 2 раза:
Вопрос 3. «Спартак» пропустил больше одного мяча? Предположим, получен ответ «Нет». Можно отбросить ещё два варианта:
Вопрос 4. «Спартак» пропустил один мяч? Предположим, получен ответ «Да». Получаем единственный вариант:
При N, равном целой степени двойки (2, 4, 8, 16, 32 и т. д.), это уравнение легко решается в уме. Решать такие уравнения при других N вы научитесь чуть позже, в курсе математики 11 класса.
2.2. Алфавитный подход к измерению информации
Однако при хранении и передаче информации с помощью технических устройств целесообразно отвлечься от её содержания и рассматривать информацию как последовательность символов (букв, цифр, кодов цвета точек изображения и т. д.) некоторого алфавита.
Информация — последовательность символов (букв, цифр, кодов цвета точек изображения и т. д.) некоторого алфавита.
Минимальная мощность алфавита (количество входящих в него символов), пригодного для кодирования информации, равна 2. Такой алфавит называется двоичным. Один символ двоичного алфавита несёт 1 бит информации.
Андрей Николаевич Колмогоров (1903-1987) — один из крупнейших математиков XX века. Им получены основополагающие результаты в математической логике, теории сложности алгоритмов, теории информации, теории множеств и ряде других областей математики и её приложений.
В отличие от определения количества информации по Колмогорову в определении информационного объёма не требуется, чтобы число двоичных символов было минимально возможным. При оптимальном кодировании понятия количества информации и информационного объёма совпадают.
Из курса информатики основной школы вы знаете, что двоичные коды бывают равномерные и неравномерные. Равномерные коды в кодовых комбинациях содержат одинаковое число символов, неравномерные — разное.
Первый равномерный двоичный код был изобретён французом Жаном Морисом Бодо в 1870 году. В коде Бодо используются сигналы двух видов, имеющие одинаковую длительность и абсолютную величину, но разную полярность. Длина кодов всех символов алфавита равна пяти (рис. 1.7).
Рис. 1.7. Фрагмент кодовой таблицы кода Бодо
Всего с помощью кода Бодо можно составить 2 5 = 32 комбинации.
Пример 5. Слово WORD, закодированное с помощью кода Бодо, будет выглядеть так:
Пример 6. Для двоичного представления текстов в компьютере чаще всего используется равномерный восьмиразрядный код. С его помощью можно закодировать алфавит из 256 символов (2 8 = 256). Фрагмент кодовой таблицы ASCII представлен на рисунке 1.8.
Рис. 1.8. Фрагмент кодовой таблицы ASCII
Слово WORD, закодированное с помощью таблицы ASCII:
Из курса информатики основной школы вам известно, что с помощью i-разрядного двоичного кода можно закодировать алфавит, мощность N которого определяется из соотношения:
2 i = N.
Иными словами, зная мощность используемого алфавита, всегда можно вычислить информационный вес символа — минимально возможное количество бит, требуемое для кодирования символов этого алфавита. При этом информационный вес символа должен быть выражен целым числом.
Соотношение для определения информационного веса символа алфавита можно получить и из следующих соображений.
1) определить мощность используемого алфавита N;
2) из соотношения 2 i = N определить i — информационный вес символа алфавита в битах (длину двоичного кода символа из используемого алфавита мощности N);
I = К * i,
где I — информационный вес символа в битах, связанный с мощностью используемого алфавита N соотношением:
2 i = N.
Пример 7. Для регистрации на некотором сайте пользователю надо придумать пароль, состоящий из 10 символов. В качестве символов можно использовать десятичные цифры и шесть первых букв латинского алфавита, причём буквы используются только заглавные. Пароли кодируются посимвольно. Все символы кодируются одинаковым и минимально возможным количеством бит. Для хранения сведений о каждом пользователе в системе отведено одинаковое и минимально возможное целое число байт.
Необходимо выяснить, какой объём памяти потребуется для хранения 100 паролей.
2.3. Единицы измерения информации
Итак, в двоичном коде один двоичный разряд несёт 1 бит информации. 8 бит образуют один байт. Помимо бита и байта, для измерения информации используются более крупные единицы:
1 Кбайт (килобайт) = 2 10 байт;
1 Мбайт (мегабайт) = 2 10 Кбайт = 2 20 байт;
1 Гбайт (гигабайт) = 2 10 Мбайт = 2 20 Кбайт = 2 30 байт;
1 Тбайт (терабайт) = 2 10 Гбайт = 2 20 Мбайт = 2 30 Кбайт = 2 40 байт;
1 Пбайт (петабайт) = 2 10 Тбайт = 2 20 Гбайт = 2 30 Мбайт = 2 40 Кбайт = 2 50 байт.
Исторически сложилось так, что приставки «кило», «мега», «гига», «тера» и др. в информатике трактуются не так, как в математике, где «кило» соответствует 10 3 , «мега» — 10 6 , «гига» — 10 9 , «тера» — 10 12 и т. д.
Это произошло потому, что 2 10 = 1024 ≈ 1000 = 10 3 . Поэтому 1024 байта и стали называть килобайтом, 2 10 килобайта стали называть мегабайтом и т. д.
Чтобы избежать путаницы с различным использованием одних и тех же приставок, в 1999 г. Международная электротехническая комиссия ввела новый стандарт наименования двоичных приставок. Согласно этому стандарту, 1 килобайт равняется 1000 байт, а величина 1024 байта получила новое название — 1 кибибайт (Кибайт).
У нас в стране в 2009 году принято «Положение о единицах величин, допускаемых к применению в Российской Федерации». В нём сказано, что наименование и обозначение единицы количества информации «байт» (1 байт = 8 бит) применяются с двоичными приставками «кило», «мега», «гига», которые соответствуют множителям «2 10 », «2 20 » и «2 30 » (1 Кбайт = 1024 байт, 1 Мбайт = 1024 Кбайт, 1 Гбайт = 1024 Мбайт). Данные приставки пишутся с большой буквы.
Пример 8. При регистрации в компьютерной системе каждому пользователю выдаётся пароль длиной в 12 символов, образованный из десятичных цифр и первых шести букв английского алфавита, причём буквы могут использоваться как строчные, так и прописные — соответствующие символы считаются разными. Пароли кодируются посимвольно. Все символы кодируются одинаковым и минимально возможным количеством бит. Для хранения сведений о каждом пользователе в системе отведено одинаковое и минимально возможное целое число байт.
Кроме собственно пароля для каждого пользователя в системе хранятся дополнительные сведения, для которых отведено 12 байт. На какое максимальное количество пользователей рассчитана система, если для хранения сведений о пользователях в ней отведено 200 Кбайт?
Прежде всего, выясним мощность алфавита, используемого для записи паролей: N — 6 (буквы прописные) + 6 (буквы строчные) + 10 (десятичные цифры) = 22 символа.
Для кодирования одного из 22 символов требуется 5 бит памяти (4 бита позволят закодировать всего 2 4 = 16 символов, 5 бит позволят закодировать уже 2 5 = 32 символа); 5 — минимально возможное количество бит для кодирования 22 разных символов алфавита, используемого для записи паролей.
Для хранения всех 12 символов пароля требуется 12 • 5 = 60 бит. Из условия следует, что пароль должен занимать целое число байт; т. к. 60 не кратно восьми, возьмём ближайшее большее значение, которое кратно восьми: 64 = 8 • 8. Таким образом, один пароль занимает 8 байт.
Информация о пользователе занимает 20 байт, т. к. содержит не только пароль (8 байт), но и дополнительные сведения (12 байт).
Максимальное количество пользователей («польз.»), информацию о которых можно сохранить в системе, равно 10 240:
САМОЕ ГЛАВНОЕ
I = K * i, где i — информационный вес символа в битах, связанный с мощностью используемого алфавита N соотношением 2 i = N. Единицы измерения информации:
1 Кбайт (килобайт) = 2 10 байт;
1 Мбайт (мегабайт) = 2 10 Кбайт = 2 20 байт;
1 Гбайт (гигабайт) = 2 10 Мбайт = 2 20 Кбайт = 2 30 байт;
1 Тбайт (терабайт) = 2 10 Гбайт = 2 20 Мбайт = 2 30 Кбайт = 2 40 байт;
1 Пбайт (петабайт) = 2 10 Тбайт = 2 20 Гбайт = 2 30 Мбайт = 2 40 Кбайт = 2 50 байт.
Исторически сложилось так, что приставки «кило», «мега», «гига», «тера» и др. в информатике трактуются не так, как в математике, где «кило» соответствует 10 3 , «мега» — 10 6 , «гига» — 10 9 , «тера» — 10 12 и т. д.
Вопросы и задания
1. Что такое неопределённость знания о результате какого-либо события? Приведите пример.
2. В чём состоит суть содержательного подхода к определению количества информации? Что такое бит с точки зрения содержательного подхода?
3. Паролем для приложения служит трёхзначное число в шестнадцатеричной системе счисления. Возможные варианты пароля:
Ответ на какой вопрос (см. ниже) содержит 1 бит информации?
1) Это число записано в двоичной системе счисления?
2) Это число записано в четверичной системе счисления?
3) Это число может быть записано в восьмеричной системе счисления?
4) Это число может быть записано в десятичной системе счисления?
5) Это число может быть записано в шестнадцатеричной системе счисления?
4. При угадывании целого числа в некотором диапазоне было получено 5 бит информации. Каковы наибольшее и наименьшее числа этого диапазона?
5. Какое максимальное количество вопросов достаточно задать вашему собеседнику, чтобы точно определить день и месяц его рождения?
6. В чём состоит суть алфавитного подхода к измерению информации? Что такое бит с точки зрения алфавитного подхода?
7. Закодируйте фразу «ALL IN GOOD TIME» кодом Бодо и восьмиразрядным компьютерным кодом. Сравните полученные информационные объёмы текста.
8. Какие единицы используются для измерения объёма информации, хранящейся на компьютере?
11. В школьной базе данных каждый ученик получил идентификатор, состоящий ровно из б символов. В качестве символов используются все заглавные буквы русского алфавита, кроме «Ё», «Ы», «Ъ» и «Ь», а также все десятичные цифры за исключением цифры 0. Каждый такой идентификатор в информационной системе записывается минимально возможным и одинаковым целым количеством байт (при этом используют посимвольное кодирование и все символы кодируются одинаковым и минимально возможным количеством бит). Определите объём памяти, необходимый для хранения в этой системе 180 идентификаторов учащихся начальных классов. Ответ выразите в килобайтах.
13. При регистрации в компьютерной системе каждому пользователю выдаётся пароль, состоящий из 6 символов и содержащий только символы из шестибуквенного набора А, В, С, D, Е, F. Для хранения сведений о каждом пользователе отведено одинаковое и минимально возможное целое число байт. При этом используют посимвольное кодирование паролей и все символы кодируются одинаковым и минимально возможным количеством бит. Кроме собственно пароля для каждого пользователя в системе хранятся дополнительные сведения, занимающие 15 байт. Определите объём памяти в байтах, необходимый для хранения сведений о 120 пользователях.
Информация является одним из фундаментальных понятий современной науки наряду с такими понятиями, как «вещество» и «энергия».
Общее определение этому термину дать невозможно. Однако в раз-личных предметных областях даётся специализированное определение информации, подходящее для данной предметной области. В рамках этого задания мы будем говорить о математической теории информации и рассмотрим два подхода - содержательный (Клод Шеннон) и алфавитный (А.Н.Колмогоров). Начнём с определения понятия «инфор-мация» в каждом из этих подходов.
В содержательном подходе, информация - это снятая неопределённость. Неопределённость некоторого события - это количество возможных результатов (исходов) данного события.
Например, если мы подбрасываем вверх монету, то она может упасть двумя различными способами (орлом вверх или решкой вверх). Соответственно, у данного события два возможных исхода. Если же подбрасывать игральный кубик, то исходов будет шесть.
После таких определений понятия «информация» можно говорить об её измерении. Введём несколько основных единиц измерения информации.
Для каждой основной единицы измерения информации существуют производные более крупные единицы измерения. Поскольку чаще всего мы будем использовать в качестве основной единицы бит, рассмотрим производны е единиц ы измерения для бита. На практике чаще всего используется не бит, а байт.
`1` байт (`1`B) `= 8` бит;
Далее существует две линейки производных единиц для байта – линейка десятичных приставок и линейка двоичных приставок. В случае десятичных приставок каждая следующая единица измерения равна `1000` предыдущих единиц. Обозначаются десятичные приставки латинскими буквами (буква префикса из системы СИ и заглавная «B», обозначающая «байт») Итак:
`1` килобайт (`1` kB) `= 1000` B (1000 байт);
`1` мегабайт (`1` MB) `= 1000` kB ;
`1` гигабайт (`1` GB) `= 1000` MB;
`1` терабайт (`1` TB) `= 1000` GB;
`1` петабайт (`1` PB) `= 1000` TB;
`1` эксабайт (`1` EB) `= 1000` PB;
`1` зеттабайт (`1` ZB) `= 1000` EB;
`1` йоттабайт(`1` YB) `= 1000` ZB.
Более крупных единиц на настоящий момент не введено.
При использовании двоичных приставок, каждая следующая едини-ца измерения равна 1024 предыдущих единиц. В России принято обозначать двоичные приставки, записывая префикс заглавной русской буквой и после него слово «байт» целиком и тоже русскими буквами. За рубежом для обозначения двоичных приставок между префиксом и «B» добавляется маленькая буква «i» (от слова «binary»). Кроме того, все префиксы записываются заглавными буквами. Итак:
Алфавит — это набор символов, которые используются в некотором языке с целью представления информации.
В качестве символов могут быть использованы буквы, цифры, скобки, специальные знаки.
Мощность алфавита — это количество символов в алфавите, которое вычисляется по формуле:
Например, мощность алфавита, состоящего из \(26\) латинских букв и дополнительных символов (скобки, пробел, знаки препинания (\(11\) шт.), \(10\) цифр), — \(47\).
1. определим, какое количество бит необходимо для кодировки одного символа. Так как мощность используемого алфавита \(N\)\(=\) 256 , то \(i\) \(=\) 8 (использовали формулу N = 2 i ).
Поскольку \(1\) байт \(=\) \(8\) бит, \(1\) Кбайт \(=\) \(1024\) байт, получим:
65536 бит \(=\) 65536 8 байт \(=\) 8192 байт \(=\) 8192 1024 Кбайт \(=\) 8 Кбайт.
Любая компьютерная техника работает в двоичном коде, понимая только значения \(0\) — «сигнал есть» и \(1\) — «сигнала нет». Эти значения хранятся в бите — наименьшей единице измерения информации. Однако удобнее использовать более крупные единицы измерения информации, которые приведены в таблице.
\(1\) байт | \(8\) бит \(=\) 2 3 бит |
\(1\) Кбайт (килобайт) | 2 10 байт |
\(1\) Мбайт (мегабайт) | 2 10 Кбайт |
\(1\) Гбайт (гигабайт) | 2 10 Мбайт |
\(1\) Тбайт (терабайт) | 2 10 Гбайт |
1) определить, сколько Мбайт информации содержится в \(512\) битах. Ответ дай в виде степени числа \(2\).
2) Какое количество бит содержится в 1 256 Гбайт памяти? Ответ дай в виде степени числа \(2\).
Такая единица названа бит .
Бит – наименьшая единица измерения информации.
*С помощью набора битов можно представить любой знак и любое число. Знаки представляются восьмиразрядными комбинациями битов – байтами.
1байт = 8 битов=2 3 битов
Байт – это 8 битов, рассматриваемые как единое целое, основная единица компьютерных данных.
*Рассмотрим, каково количество комбинаций битов в байте.
Если у нас две двоичные цифры (бита), то число возможных комбинаций из них:
2 2 =4 : 00, 01, 10, 11
Если четыре двоичные цифры (бита), то число возможных комбинаций:
2 4 =16 : 0000, 0001, 0010, 0011,
0100, 0101, 0110, 0111,
1000, 1001, 1010, 1011,
1100, 1101, 1110, 1111
*Так как в байте- 8 бит (двоичных цифр), то число возможных комбинаций битов в байте:
2 8 =256 , т .о., байт может принимать одно из 256 значений или комбинаций битов.
*Для измерения информации используются более крупные единицы:
килобайты, мегабайты, гигабайты, терабайты и т.д.
1 Кбайт =1 024 байт
1 Мбайт = 1 024 Кбайт
1 Гбайт = 1 024 Мбайт
1 Тбайт = 1 024 Гбайт
*Проведем аналогию с единицами длины: если 1 бит «соответствует» 1 мм, то:
1 байт – 10 мм = 1см;
1 Кбайт – 1000 см = 10 м;
1 Мбайт – 10 000 м = 10 км;
1 Гбайт – 10 000 км (расстояние от Москвы до Владивостока).
*Объемный (алфавитный подход) к измерению информации
Алфавитный подход позволяет измерить количество информации в тексте, составленном из символов некоторого алфавита.
*Алфавитный подход к измерению информации
Это объективный, количественный метод для измерения информации, циркулирующей в информационной технике.
*Алфавит- множество символов, используемых для представления информации.
Мощность алфавита – число символов в алфавите (его размер) N .
*Например, алфавит десятичной системы счисления – множество цифр- 0,1,2,3,4,5,6,7,8,9.
Мощность этого алфавита – 10.
Компьютерный алфавит , используемый для представления текстов в компьютере, использует 256 символов .
Алфавит двоичной системы кодирования информации имеет всего два символа- 0 и 1.
Алфавиты русского и английского языков имеют различное число букв, их мощности – различны.
* Информационный вес символа ( количество информации в одном символе ), выраженный в битах ( i ), и мощность алфавита ( N ) связаны между собой формулой:
N = 2 i
где N – это количество знаков в алфавите знаковой системы или мощность
Тогда информационный вес символа:
i = log 2 N
*Информационная емкость знаков зависит от их количества в алфавите. Так, информационная емкость буквы в русском алфавите, если не использовать букву «ё», составляет:
32 = 2 I ,
I = ln 32/ ln 2=3.46/0.69=5
I = 5 битов
В латинском алфавите 26 букв. Информационная емкость буквы латинского алфавита также 5 битов.
I с = K * i БИТ
*Например, в слове «информатика» 11 знаков (К=11), каждый знак в русском алфавите несет информацию 5 битов ( I =5), тогда количество информации в слове «информатика» I с=5х11=55 (битов).
С помощью формулы N = 2 I можно определить количество информации, которое несет знак в двоичной знаковой системе: N =2 2=2 I 2 1 =2 I I =1 бит
Таким образом, в двоичной знаковой системе 1 знак несет 1 бит информации . При двоичном кодировании объем информации равен длине двоичного кода.
Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак.
*Информационные объекты различных видов
*Информационный объект – обобщающее понятие, описывающее различные виды объектов; это предметы, процессы, явления материального или нематериального свойства, рассматриваемые с точки зрения их информационных свойств.
Простые информационные объекты :
звук, изображение, текст, число.
Комплексные (структурированные) информационные объекты :
элемент, база данных, таблица, гипертекст, гипермедиа.
*Информационный объект:
обладает определенными потребительскими качествами (т.е. он нужен пользователю);
допускает хранение на цифровых носителях;
допускает выполнение над ним определенных действий путем использования аппаратных и программных средств компьютера.
Табличные процессоры
Электронные таблицы
Пакеты мультимедийных презентаций
Компьютерные презентации
СУБД – системы управления базами данных
Базы данных
Клиент-программа электронной почты
Электронные письма, архивы, адресные списки
Программа-обозреватель Интернета (браузер)
Web -страницы, файлы из архивов Интернета
* Универсальность дискретного (цифрового) представления информации.
* Текстовая информация дискретна – состоит из отдельных знаков
* Дискретное (цифровое) представление графической информации
Изображение на экране монитора дискретно. Оно составляется из отдельных точек- пикселей.
Пиксель — минимальный участок изображения, которому независимым образом можно задать цвет.
* В процессе дискретизации могут использоваться различные палитры цветов. Каждый цвет можно рассматривать как возможное состояние точки.
Количество цветов N в палитре и количество информации I , необходимое для кодирования цвета каждой точки, вычисляется по формуле:
Пример
Наиболее распространенными значениями глубины цвета при кодировании цветных изображений являются 4, 8, 16 или 24 бита
на точку.
Можно определить количество цветов в 24-битовой палитре: N = 2 I = 2 24 = 16 777 21бит.
* Дискретное (цифровое) представление звуковой информации
Частота дискретизации звука — это количество измерений громкости звука за одну секунду.
Глубина кодирования звука — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.
Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле
N = 2 I
* Дискретное (цифровое) представление видеоинформа
ВИДЕОИНФОРМАЦИЯ -это сочетание звуковой и графической информации. Кроме того, для создания на экране эффекта движения используется дискретная технология быстрой смены статических картинок.
Способ уменьшения объема видео: первый кадр запоминается целиком (ключевой), а в следующих сохраняются только отличия от начального кадра (разностные кадры).
Читайте также: