В чем измеряется информационный объем текста в памяти компьютера
Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.
Информатика. 7 класса. Босова Л.Л. Оглавление
1.6.1. Алфавитный подход к измерению информации
Для количественного выражения любой величины необходима, прежде всего, единица измерения. Измерение осуществляется путём сопоставления измеряемой величины с единицей измерения. Сколько раз единица измерения «укладывается» в измеряемой величине, таков и результат измерения.
Обратите внимание, что название единицы измерения информации «бит» (bit) происходит от английского словосочетания binary digit — «двоичная цифра».
За минимальную единицу измерения информации принят 1 бит. Считается, что таков информационный вес символа двоичного алфавита.
1.6.2. Информационный вес символа произвольного алфавита
Ранее мы выяснили, что алфавит любого естественного или формального языка можно заменить двоичным алфавитом. При этом мощность исходного алфавита N связана с разрядностью двоичного кода i, требуемой для кодирования всех символов исходного алфавита, соотношением: N = 2 i .
Разрядность двоичного кода принято считать информационным весом символа алфавита. Информационный вес символа алфавита выражается в битах.
Информационный вес символа алфавита i и мощность алфавита N связаны между собой соотношением: N = 2 i .
Задача 1. Алфавит племени Пульти содержит 8 символов. Каков информационный вес символа этого алфавита?
Решение. Составим краткую запись условия задачи.
Известно соотношение, связывающее величины i и N : N = 2 i .
С учётом исходных данных: 8 = 2 i . Отсюда: i = 3.
Полная запись решения в тетради может выглядеть так:
1.6.4. Единицы измерения информации
В наше время подготовка текстов в основном осуществляется с помощью компьютеров. Можно говорить о «компьютерном алфавите», включающем следующие символы: строчные и прописные русские и латинские буквы, цифры, знаки препинания, знаки арифметических операций, скобки и др. Такой алфавит содержит 256 символов. Поскольку 256 = 2 8 , информационный вес каждого символа этого алфавита равен 8 битам. Величина, равная восьми битам, называется байтом. 1 байт — информационный вес символа алфавита мощностью 256.
1 байт = 8 битов
Бит и байт — «мелкие» единицы измерения. На практике для измерения информационных объёмов используются более крупные единицы:
1 килобайт = 1 Кб = 1024 байта = 2 10 байтов
1 мегабайт = 1 Мб = 1024 Кб = 2 10 Кб = 2 20 байтов
1 гигабайт = 1 Гб = 1024 Мб = 2 10 Мб = 2 20 Кб = 2 30 байтов
1 терабайт = 1 Тб = 1024 Гб = 2 10 Гб = 2 20 Мб = 2 30 Кб = 2 40 байтов
Ответ: 8 битов, 256 символов.
Ответ: 70 байтов.
Самое главное.
1 бит — минимальная единица измерения информации.
Информационный вес символа алфавита i и мощность алфавита N связаны между собой соотношением: N = 2 i .
1 байт = 8 битов.
Байт, килобайт, мегабайт, гигабайт, терабайт — единицы измерения информации. Каждая следующая единица больше предыдущей в 1024 (210) раза.
Вопросы и задания.
Единицей измерения количества информации является бит – это наименьшаяединица.
1 Кб (килобайт) = 1024 байта= 2 10 байтов
1 Мб (мегабайт) = 1024 Кб = 2 10 Кб
1 Гб (гигабайт) = 1024 Мб = 2 10 Мб
1 Тб (терабайт) =1024 Гб = 2 10 Гб
Формулы, которые используются при решении типовых задач:
Информационный вес символа алфавита и мощность алфавита связаны между собой соотношением: N = 2 i .
i – информационный вес одного символа.
Основная литература:
- Босова Л. Л. Информатика: 7 класс. // Босова Л. Л., Босова А. Ю. – М.: БИНОМ, 2017. – 226 с.
Дополнительная литература:
- Босова Л. Л. Информатика: 7–9 классы. Методическое пособие. // Босова Л. Л., Босова А. Ю., Анатольев А. В., Аквилянов Н.А. – М.: БИНОМ, 2019. – 512 с.
- Босова Л. Л. Информатика. Рабочая тетрадь для 7 класса. Ч 1. // Босова Л. Л., Босова А. Ю. – М.: БИНОМ, 2019. – 160 с.
- Босова Л. Л. Информатика. Рабочая тетрадь для 7 класса. Ч 2. // Босова Л. Л., Босова А. Ю. – М.: БИНОМ, 2019. – 160 с.
- Гейн А. Г. Информатика: 7 класс. // Гейн А. Г., Юнерман Н. А., Гейн А.А. – М.: Просвещение, 2012. – 198 с.
Теоретический материал для самостоятельного изучения.
Что же такое символ в компьютере? Символом в компьютере является любая буква, цифра, знак препинания, специальный символ и прочее, что можно ввести с помощью клавиатуры. Но компьютер не понимает человеческий язык, он каждый символ кодирует. Вся информация в компьютере представляется в виде нулей и единичек. И вот эти нули и единички называются битом.
Информационный вес символа двоичного алфавита принят за минимальную единицу измерения информации и называется один бит.
Алфавит любого понятного нам языка можно заменить двоичным алфавитом. При этом мощность исходного алфавита связана с разрядностью двоичного кода соотношением: N = 2 i .
Эту формулу можно применять для вычисления информационного веса одного символа любого произвольного алфавита.
Рассмотрим пример:
Алфавит древнего племени содержит 16 символов. Определите информационный вес одного символа этого алфавита.
Составим краткую запись условия задачи и решим её:
16 = 2 i , 2 4 = 2 i , т. е. i = 4
Ответ: i = 4 бита.
Информационный вес одного символа этого алфавита составляет 4 бита.
Математически это произведение записывается так: I = К · i.
32 = 2 i , 2 5 = 2 i , т.о. i = 5,
I = 180 · 5 = 900 бит.
Ответ: I = 900 бит.
I = 23 · 8 = 184 бита.
Как и в математике, в информатике тоже есть кратные единицы измерения информации. Так, величина равная восьми битам, называется байтом.
Бит и байт – это мелкие единицы измерения. На практике для измерения информационных объёмов используют более крупные единицы: килобайт, мегабайт, гигабайт и другие.
1 Кб (килобайт) = 1024 байта= 2 10 байтов
1 Мб (мегабайт) = 1024 Кб = 2 10 Кб
1 Гб (гигабайт) = 1024 Мб = 2 10 Мб
1 Тб (терабайт) =1024 Гб = 2 10 Гб
Материал для углубленного изучения темы.
Как текстовая информация выглядит в памяти компьютера.
Набирая текст на клавиатуре, мы видим привычные для нас знаки (цифры, буквы и т.д.). В оперативную память компьютера они попадают только в виде двоичного кода. Двоичный код каждого символа, выглядит восьмизначным числом, например 00111111. Теперь возникает вопрос, какой именно восьмизначный двоичный код поставить в соответствие каждому символу?
Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код ‑ просто порядковый номер символа в двоичной системе счисления.
Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.Таблица для кодировки – это «шпаргалка», в которой указаны символы алфавита в соответствии порядковому номеру. Для разных типов компьютеров используются различные таблицы кодировки.
Таблица ASCII (или Аски), стала международным стандартом для персональных компьютеров. Она имеет две части.
В этой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Это правило соблюдается и в других таблицах кодировки и называется принципом последовательного кодирования алфавитов. Благодаря этому понятие «алфавитный порядок» сохраняется и в машинном представлении символьной информации. Для русского алфавита принцип последовательного кодирования соблюдается не всегда.
Запишем, например, внутреннее представление слова «file». В памяти компьютера оно займет 4 байта со следующим содержанием:
01100110 01101001 01101100 01100101.
А теперь попробуем решить обратную задачу. Какое слово записано следующим двоичным кодом:
01100100 01101001 01110011 01101011?
В таблице 2 приведен один из вариантов второй половины кодовой таблицы АSСII, который называется альтернативной кодировкой. Видно, что в ней для букв русского алфавита соблюдается принцип последовательного кодирования.
Вывод: все тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные для нас буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в форме двоичного кода.
Из памяти же компьютера текст может быть выведен на экран или на печать в символьной форме.
Разбор решения заданий тренировочного модуля
Информационный вес символа алфавита и мощность алфавита связаны между собой соотношением: N = 2 i .
Давайте разберемся с этим, ведь нам придется измерять объем памяти и быстродействие компьютера.
Единицей измерения количества информации является бит – это наименьшая (элементарная) единица.
Байт – основная единица измерения количества информации.
Байт – довольно мелкая единица измерения информации. Например, 1 символ – это 1 байт.
Производные единицы измерения количества информации
1 килобайт (Кб)=1024 байта =2 10 байтов
1 мегабайт (Мб)=1024 килобайта =2 10 килобайтов=2 20 байтов
1 гигабайт (Гб)=1024 мегабайта =2 10 мегабайтов=2 30 байтов
1 терабайт (Гб)=1024 гигабайта =2 10 гигабайтов=2 40 байтов
Запомните, приставка КИЛО в информатике – это не 1000, а 1024, то есть 2 10 .
Методы измерения количества информации
Итак, количество информации в 1 бит вдвое уменьшает неопределенность знаний. Связь же между количеством возможных событий N и количеством информации I определяется формулой Хартли:
Алфавитный подход к измерению количества информации
Вероятностный подход к измерению количества информации
Этот подход применяют, когда возможные события имеют различные вероятности реализации. В этом случае количество информации определяют по формуле Шеннона:
I – количество информации,
N – количество возможных событий,
Pi – вероятность i-го события.
Задача 1.
Имеется 4 равновероятных события (N=4).
Задача 2.
Чему равен информационный объем одного символа русского языка?
В русском языке 32 буквы (буква ё обычно не используется), то есть количество событий будет равно 32. Найдем информационный объем одного символа. I=log2 N=log2 32=5 битов (2 5 =32).
Примечание. Если невозможно найти целую степень числа, то округление производится в большую сторону.
Задача 3.
Чему равен информационный объем одного символа английского языка?
Задача 4.
Световое табло состоит из лампочек, каждая из которых может находиться в одном из двух состояний (“включено” или “выключено”). Какое наименьшее количество лампочек должно находиться на табло, чтобы с его помощью можно было передать 50 различных сигналов?
С помощью N лампочек, каждая из которых может находиться в одном из двух состояний, можно закодировать 2 N сигналов.
2 5 < 50 <2 6 , поэтому пяти лампочек недостаточно, а шести хватит. Значит, нужно 6 лампочек.
Задача 5.
Метеостанция ведет наблюдения за влажностью воздуха. Результатом одного измерения является целое число от 0 до 100, которое записывается при помощи минимально возможного количества битов. Станция сделала 80 измерений. Определите информационный объем результатов наблюдений.
В данном случае алфавитом является множество чисел от 0 до 100, всего 101 значение. Поэтому информационный объем результатов одного измерения I=log2101. Но это значение не будет целочисленным, поэтому заменим число 101 ближайшей к нему степенью двойки, большей, чем 101. это число 128=2 7 . Принимаем для одного измерения I=log2128=7 битов. Для 80 измерений общий информационный объем равен 80*7 = 560 битов = 70 байтов.
Задача 6.
Определите количество информации, которое будет получено после подбрасывания несимметричной 4-гранной пирамидки, если делают один бросок.
Пусть при бросании 4-гранной несимметричной пирамидки вероятности отдельных событий будут равны: p1=1/2, p2=1/4, p3=1/8, p4=1/8.
Тогда количество информации, которое будет получено после реализации одного из них, можно вычислить по формуле Шеннона:
I = -[1/2 * log2(1/2) + 1/4 * log2(1/4) + 1/8 * log(1/8) + 1/8 * log(1/8)] = 14/8 битов = 1,75 бита.
Задача 7.
В книге 100 страниц; на каждой странице - 20 строк, в каждой строке - 50 символов. Определите объем информации, содержащийся в книге.
Задача 8.
Оцените информационный объем следующего предложения:
Тяжело в ученье – легко в бою!
Для измерения длины есть такие единицы, как миллиметр, сантиметр, метр, километр. Известно, что масса измеряется в граммах, килограммах, центнерах и тоннах. Бег времени выражается в секундах, минутах, часах, днях, месяцах, годах, веках. Компьютер работает с информацией и для измерения ее объема также имеются соответствующие единицы измерения.
Мы уже знаем, что компьютер воспринимает всю информацию через нули и единички.
Бит – это минимальная единица измерения информации, соответствующая одной двоичной цифре («0» или «1»).
Байт состоит из восьми бит. Используя один байт, можно закодировать один символ из 256 возможных (256 = 2 8 ). Таким образом, один байт равен одному символу, то есть 8 битам:
1 символ = 8 битам = 1 байту.
Кроме бита и байта, конечно же, есть и другие, более крупные единицы измерения информации.
Таблица байтов:
1 Кб (1 Килобайт) = 2 10 байт = 2*2*2*2*2*2*2*2*2*2 байт =
= 1024 байт (примерно 1 тысяча байт – 10 3 байт)
1 Мб (1 Мегабайт) = 2 20 байт = 1024 килобайт (примерно 1 миллион байт – 10 6 байт)
1 Гб (1 Гигабайт) = 2 30 байт = 1024 мегабайт (примерно 1 миллиард байт – 10 9 байт)
1 Тб (1 Терабайт) = 2 40 байт = 1024 гигабайт (примерно 10 12 байт). Терабайт иногда называют тонна.
1 Пб (1 Петабайт) = 2 50 байт = 1024 терабайт (примерно 10 15 байт).
1 Эксабайт = 2 60 байт = 1024 петабайт (примерно 10 18 байт).
1 Зеттабайт = 2 70 байт = 1024 эксабайт (примерно 10 21 байт).
1 Йоттабайт = 2 80 байт = 1024 зеттабайт (примерно 10 24 байт).
В приведенной выше таблице степени двойки (2 10 , 2 20 , 2 30 и т.д.) являются точными значениями килобайт, мегабайт, гигабайт. А вот степени числа 10 (точнее, 10 3 , 10 6 , 10 9 и т.п.) будут уже приблизительными значениями, округленными в сторону уменьшения. Таким образом, 2 10 = 1024 байта представляет точное значение килобайта, а 10 3 = 1000 байт является приблизительным значением килобайта.
Такое приближение (или округление) вполне допустимо и является общепринятым.
Ниже приводится таблица байтов с английскими сокращениями (в левой колонке):
10 3 b = 10*10*10 b= 1000 b – килобайт
10 6 b = 10*10*10*10*10*10 b = 1 000 000 b – мегабайт
10 9 b – гигабайт
10 12 b – терабайт
10 15 b – петабайт
10 18 b – эксабайт
10 21 b – зеттабайт
10 24 b – йоттабайт
Выше в правой колонке приведены так называемые «десятичные приставки», которые используются не только с байтами, но и в других областях человеческой деятельности. Например, приставка «кило» в слове «килобайт» означает тысячу байт. В случае с километром она соответствует тысяче метров, а в примере с килограммом она равна тысяче грамм.
Возникает вопрос: есть ли продолжение у таблицы байтов? В математике есть понятие бесконечности, которое обозначается как перевернутая восьмерка: ∞.
Понятно, что в таблице байтов можно и дальше добавлять нули, а точнее, степени к числу 10 таким образом: 10 27 , 10 30 , 10 33 и так до бесконечности. Но зачем это надо? В принципе, пока хватает терабайт и петабайт. В будущем, возможно, уже мало будет и йоттабайта.
Напоследок парочка примеров по устройствам, на которые можно записать терабайты и гигабайты информации.
Есть удобный «терабайтник» – внешний жесткий диск, который подключается через порт USB к компьютеру. На него можно записать терабайт информации. Особенно удобно для ноутбуков (где смена жесткого диска бывает проблематична) и для резервного копирования информации. Лучше заранее делать резервные копии информации, а не после того, как все пропало.
Флешки бывают 1 Гб, 2 Гб, 4 Гб, 8 Гб, 16 Гб, 32 Гб , 64 Гб и даже 1 терабайт.
CD-диски могут вмещать 650 Мб, 700 Мб, 800 Мб и 900 Мб.
DVD-диски рассчитаны на большее количество информации: 4.7 Гб, 8.5 Гб, 9.4 Гб и 17 Гб.
В данный момент вы не можете посмотреть или раздать видеоурок ученикам
Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.
Получите невероятные возможности
Конспект урока "Измерение информации"
На прошлых уроках мы узнали:
· Алфавитом языка называется набор всех различных символов, которые используются для представления информации на этом языке.
· Любой алфавит характеризуется своей мощностью, так называется количество символов, которые в него входят.
· Мощность двоичного алфавита – всего два символа.
· Двоичным кодированием называется запись информации с помощью символов двоичного алфавита, а двоичным кодом – код информации, получившийся в результате двоичного кодирования.
· Двоичное кодирование универсально, это означает, что с помощью двоичного кода можно представить любую информацию.
· На компьютере любая информация хранится в виде двоичных кодов.
· Алфавитный подход к измерению информации.
· Информационный вес символа.
· Единицы измеряется информации.
Всего существует два подхода к измерению информации. Первый подход – содержательный. Как ясно из названия, он оценивает содержание информации. А как же можно оценить содержание информации? Универсально оценить содержание любой информацию позволяют её свойства: объективность, достоверность полнота, актуальность, полезность и понятность. Однако, часть свойств информации субъективна, то есть для разных людей информация может быть по-разному полезна, понятна или актуальна. Потому измерение информации с помощью этого подхода часто тоже субъективно. Для того, чтобы объективно измерить информацию нельзя опираться на её содержание.
Измерить информацию независимо от её содержания позволяет алфавитный подход. Рассмотрим его подробнее. Прежде чем что-нибудь выразить количественно, необходимо установить, для этого единицу измерения. Так расстояние измеряется в метрах, а время в секундах. А в чём же измеряется информация? В алфавитном подходе считается, что каждый символ алфавита, который использован для записи информации, имеет некоторый информационный вес. Это означает, что он несёт некоторое количество информации. Все символы одного и того же алфавита имеют одинаковый информационный вес. Информационный вес каждого из символов алфавита зависит от мощности этого алфавита. Минимальная единица измерения информации – это информационный вес одного символа двоичного алфавита. Эта величина получила название один бит. Слово бит на английском языке (Bit) произошло как результат сокращения словосочетания «Binary digit», что в переводе на русский язык, означает «двоичный символ».
Почему же именно один бит был принят в качестве минимальной единицы измерения информации? Как мы помним из прошлого урока, любую информацию можно записать в виде её двоичного кода, то есть представить её как совокупность двоичных символов. В то же время меньшей информационной единицы, чем один бит просто не существует. Наверняка у вас возник вопрос, почему? Вспомним, чем является любой алфавит. Любой алфавит – это знаковая система. А какая знаковая система минимальна? Сколько символов она содержит? 2. Так как 1 символ, вне знаковой системы не может нести информацию. То есть двоичный алфавит – это минимальная знаковая система.
Раньше мы узнали, что алфавит любого языка, естественного или формального можно заменить двоичным алфавитом. Для этого всем символам алфавита можно присвоить уникальные двоичные коды одинаковой разрядности. Причём минимальная разрядность двоичного кода, необходимая, для кодирования одного символа алфавита, зависит от мощности кодируемого алфавита. Запишем выражение для этой зависимости. Мощность алфавита обозначим латинской буквой «М», а минимальную необходимую разрядность двоичного кода – буквой «i». Тогда M = 2 i , или перемноженной последовательности из i двоек. При этом, если мощность алфавита нельзя получить простым перемножением двоек, то она увеличивается до числа, которое можно получить таким образом. Это делается потому, что иначе двоичный код с меньшей разрядностью не сможет уникальным образом закодировать все символы алфавита.
Информационным весом символа называется, количество информации, которое он несёт в рамках своего алфавита. Она равна минимальной разрядности двоичного кода, необходимой для равномерного кодирования алфавита этого символа. Информационный вес символа, как и любая информация измеряется в битах.
Задача: алфавит русского языка содержит:
· тридцать три буквы,
· десять арабских цифр,
· одиннадцать знаков препинания,
Вычислить информационный вес одного символа из алфавита русского языка.
В начале нужно найти мощность русскоязычного алфавита M. Для этого посчитаем общее число всех символов: букв – 33, количество цифр – 10, количество знаков препинания – 11 и добавим ещё 1, то есть пробел. M = 33 + 10 + 11+ 1 = 55. Общая мощность русского алфавита равна 55 символам. Теперь найдём, какая разрядность двоичного кода потребуется, чтобы закодировать 1 символ алфавита мощностью 55 символов. Информационный вес символа будет равен этой разрядности. То есть M = 55 = 2 i . Число 55 мы не можем получить простым перемножением двоек. Поэтому увеличим число до 64-х. Для того, чтобы получить 64, нужно перемножить 6 двоек или 2 6 . i = 6. Мы можем дать ответ: информационный вес одного символа русского алфавита – 6 бит.
Итак, минимальная единица измерения информации один бит, и мы можем выразить с помощью этой величины любой объём информации, но всегда ли это удобно? Ведь текст на компьютере может содержать десятки и даже сотни тысяч символов, а звуки и изображения представляются миллиардами символов двоичного кода. Для удобства измерения такой информации были введены и более крупные единицы.
Первая из них – байт, рассмотрим, как же он появился и чему равен. В самом начале большая часть информации на компьютерах была текстовой. Для набора информации использовалось несколько алфавитов, или кодировок. Большинство из них содержало по 256 символов. Это означает что информационный вес одного символа в таком алфавите был 8 бит. Так же именно 8 бит информации могли одновременно обрабатывать процессоры того времени. Эта величина и была названа байтом.
Так же существуют и ещё более крупные единицы информации, например килобайты (Кб). Некоторые из вас могут подумать, что в 1 килобайте 1000 байт, так же как в 1 килограмме – 1000 грамм. Однако это не верно. Для более удобного измерения информации на компьютере 1 килобайт содержит не 1000, а 1024 байта. Почему именно 1024? Потому, что 1024 = 2 10 . Есть и ещё более крупные величины. Так один мегабайт (Мб) содержит 1024 Кб. Ещё десять лет назад информация, содержащаяся на компьютере, измерялась в гигабайтах. Один гигабайт (Гб) содержит 1024 Мб. Сейчас на одном домашнем компьютере могут храниться терабайты (Тб) информации, и в 1 Тб – сколько, как вы думаете? – Правильно: 1024 Гб.
· всего на заводе работает 714 сотрудников;
· на работу вышло 698 сотрудников;
· все уникальные двоичные коды сотрудников имеют одинаковую разрядность.
Важно запомнить:
· Алфавитный подход позволяет измерить объём информации не зависимо от её содержания. При этом каждый символ несёт, некоторое количество информации, имеет информационный вес (i).
· Минимальная единица измерения информации – 1 бит.
· Мощность алфавита равна двум в степени, равной информационному весу символа (M = 2 i ).
· 1 байт = 8 бит.
· Байты, килобайты (Кб), мегабайты (Мб), гигабайты (Гб), терабайты (Тб) – единицы измерения информация. Каждая следующая больше предыдущей в 1024 раза.
Читайте также: