Как сделать описательную статистику в excel
Как только вы активируете Data Analysis Toolpak, вы можете выбрать функцию, которая будет автоматически рассчитывать количество статистических данных для выборки данных.
1. Характеристика пакета Excel
Пакет Excel оснащенсредствами статистической обработки данных. И хотя Excel существенно уступает специализированным статистическим пакетамобработки данных, тем не менее этот раздел математики представлен в Excel наиболее полно. В него включены основные,наиболее часто используемые статистические процедуры: средства описательнойстатистики, критерии различия, корреляционные и другие методы, позволяющиепроводить необходимый статистический анализ экономических, психологических,педагогических и медико-биологических типов данных.
Каждая единица информации занимает свою собственную ячейку(клетку) в создаваемой рабочей таблице. В каждой рабочей таблице 256 столбцов(из которых в новой рабочей таблице на экране видны, как правило, только первые10 или 11 (от А до J или К) и 65 536 строк (из которых обычно видны толькопервые 15-20). Каждая новая рабочая книга содержит три чистых листа рабочихтаблиц.
Вся помещаемая в электронную таблицу информация хранится в отдельныхклетках рабочей таблицы. Но ввести информацию можно только в текущую клетку. Спомощью адреса в строке формул и табличного курсора Excel указывает, какая изклеток рабочей таблицы является текущей. В основе системы адресации клетокрабочей таблицы лежит комбинация буквы(или букв) столбца и номера строки, например A 2, B 12.
При рассмотрении применения методов обработки статистическихданных в данной лабораторной работе ограничимся только простейшими и наиболеечасто описательными статистиками, реализованными в мастере функций Excel .
Использование описательной статистики
Под описательной статистикой понимают систематизацию эмпирических данных по целому ряду основных статистических критериев. Причем на основе полученного результата из этих итоговых показателей можно сформировать общие выводы об изучаемом массиве данных.
- Медиана;
- Мода;
- Дисперсия;
- Среднее;
- Стандартное отклонение;
- Стандартная ошибка;
- Асимметричность и др.
Рассмотрим, как работает данный инструмент на примере Excel 2010, хотя данный алгоритм применим также в Excel 2007 и в более поздних версиях данной программы.
Теперь посмотрим, как инструмент описательная статистика можно применить на практике. Для этих целей используем готовую таблицу.
Выше мы говорили исключительно о входных данных. Теперь переходим к разбору настроек параметров вывода, которые расположены в этом же окне формирования описательной статистики. Прежде всего, нам нужно определиться, куда именно будут выводиться обработанные данные:
- Выходной интервал;
- Новый рабочий лист;
- Новая рабочая книга.
Далее, если вы хотите чтобы выводилась также итоговая статистика, то нужно установить флажок около соответствующего пункта. Также можно установить уровень надежности, поставив галочку около соответствующего значения. По умолчанию он будет равен 95%, но его можно изменить, внеся другие числа в поле справа.
- Асимметричность;
- Интервал;
- Минимум;
- Стандартное отклонение;
- Дисперсия выборки;
- Максимум;
- Сумма;
- Эксцесс;
- Среднее;
- Стандартная ошибка;
- Медиана;
- Мода;
- Счет.
Если какие-то из вышеуказанных данных для конкретного вида анализа не нужны, то их можно удалить, чтобы они не мешали. Далее производится анализ с учетом статистических закономерностей.
Урок: Статистические функции в Excel
Мы рады, что смогли помочь Вам в решении проблемы.
Опишите, что у вас не получилось.
Наши специалисты постараются ответить максимально быстро.
Помогла ли вам эта статья?
Дополнительные сведения
Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.
Вы в первый раз на нашем сайте?
Для полноценного доступа к курсам на этом сайте Вам потребуется потратить пару минут, чтобы самостоятельно создать учетную запись.
Пошаговая инструкция:
Пример7.8
Вычислить k -ую персентиль и j -ую квартиль сгенерированного ряда.
- Задаем в ячейке Е:11 функцию =ПЕРСЕНТИЛЬ(A1:A36;D11) . Получим 55% персентиль .
- Задаем в ячейке Е:14 функцию=КВАРТИЛЬ(A1:A36;D14) . Получим 4-ю квартиль.
Результаты представлены на рисунке 6.
Среднее выборки
2 Использование специальных функций
В мастере функций Excel имеется рядспециальных функций, предназначенных для вычисления выборочных характеристик.
Функция СРЗНАЧ вычисляет среднее арифметическое изнескольких массивов (аргументов) чисел. Аргументы число1, число2, … — этоот 1 до 30 массивов для которых вычисляется среднее.
Функция МЕДИАНА позволяет получать медиану заданнойвыборки. Медиана – это элемент выборки, число элементов выборки со значениямибольше которого и меньше которого равно.
Функция МОДА вычисляет наиболее часто встречающеесязначение в выборке.
Функция ДИСП позволяет оценить дисперсию повыборочным данным.
Функция СТАНДОТКЛОН вычисляет стандартное отклонение.
Функция ЭКСЦЕСС вычисляет оценку эксцесса по выборочнымданным.
Функция СКОС позволяет оценить асимметриювыборочного распределения.
Функция КВАРТИЛЬ вычисляет квартилираспределения. Функция имеет формат КВАРТИЛЬ(массив, значение), где массив– интервал ячеек, содержащих значения СВ; значение определяет какаяквартиль должна быть найдена (0 – минимальное значение, 1 – нижняя квартиль, 2– медиана, 3 – верхняя квартиль, 4 – максимальное значение распределения).
Пример 1. Провести статистический анализметодом описательной статистики доходов населения в регионе 1 и регионе 2.
Медиана выборки
Медиана (Median) – это число, которое является серединой множества чисел (в данном случае выборки): половина чисел множества больше, чем медиана , а половина чисел меньше, чем медиана . Для определения медианы необходимо сначала отсортировать множество чисел . Например, медианой для чисел 2, 3, 3, 4 , 5, 7, 10 будет 4.
Если множество содержит четное количество чисел, то вычисляется среднее для двух чисел, находящихся в середине множества. Например, медианой для чисел 2, 3, 3 , 5 , 7, 10 будет 4, т.к. (3+5)/2.
Очевидно, что средняя зарплата (71 тыс. руб.) не отражает тот факт, что 86% сотрудников получает не более 30 тыс. руб. (т.е. 86% сотрудников получает зарплату в более, чем в 2 раза меньше средней!). В то же время медиана (15 тыс. руб.) показывает, что как минимум у 50% сотрудников зарплата меньше или равна 15 тыс. руб.
Для определения медианы в MS EXCEL существует одноименная функция МЕДИАНА() , английский вариант – MEDIAN().
Медиану также можно вычислить с помощью формул
Подробнее о медиане см. специальную статью Медиана в MS EXCEL .
СОВЕТ : Подробнее про квартили см. статью, про перцентили (процентили) см. статью.
Студенческий т-тест в Excel
T-критерий является одним из самых основных статистических тестов, и его легко вычислить в Excel с помощью Toolpak. Нажмите на Анализ данных и прокрутите вниз, пока не увидите параметры t-теста.
У вас есть три варианта:
Чтобы проверить, равны ли отклонения двух ваших выборок, вам нужно выполнить F-тест. найти F-тест с двумя образцами для отклонений в списке инструментов для анализа выберите его и нажмите Хорошо.
Введите два набора данных в поля ввода диапазона. Оставьте альфа-значение на уровне 0,05, если у вас нет оснований для его изменения — если вы не знаете, что это значит, просто оставьте. Наконец, нажмите Хорошо.
Excel выдаст вам результаты на новом листе (если вы не выбрали Диапазон выхода и ячейка в вашем текущем листе):
Вы смотрите на P-значение здесь. Если это меньше 0,05, у вас есть неравные отклонения. Таким образом, чтобы запустить t-тест, вы должны использовать опцию неравных отклонений.
Чтобы запустить t-тест, выберите соответствующий тест в окне Инструменты анализа и выберите оба набора данных таким же образом, как вы делали для F-теста. Оставьте значение альфа на 0,05 и нажмите Хорошо.
Результаты включают в себя все, что вам нужно сообщить для t-теста: средние значения, степени свободы (df), t-статистику и P-значения для одно- и двусторонних тестов. Если значение P составляет менее 0,05, два образца значительно различаются.
Если вы не уверены, следует ли использовать одно- или двусторонний критерий Стьюдента, ознакомьтесь с этим объяснением в UCLA.
Расчет стандартной ошибки при помощи встроенных функций
Для того, чтобы правильно вычислять, необходимо изучить пошаговую инструкцию. В этом способе подбор результатов будет осуществляться с помощью комбинированных манипуляций.
- Для расчетов будем использовать таблицу с выборкой чисел. Кликаем на любой пустой ячейке на листе, где будет отображаться результат. Затем нажимаем кнопку «Вставить функцию.
После выполнения этих шагов, стандартная ошибка высчитывается автоматически, пользователю остается только сверить их и проверить значение на некорректное отображение.
Для малых и стандартных выборок необходимо использовать разные формулы. В первом случае (если находится до 30 значений), ее необходимо видоизменить.
Мода выборки
Мода (Mode) – это наиболее часто встречающееся (повторяющееся) значение в выборке . Например, в массиве (1; 1; 2 ; 2 ; 2 ; 3; 4; 5) число 2 встречается чаще всего – 3 раза. Значит, число 2 – это мода . Для вычисления моды используется функция МОДА() , английский вариант MODE().
Начиная с MS EXCEL 2010 вместо функции МОДА() рекомендуется использовать функцию МОДА.ОДН() , которая является ее полным аналогом. Кроме того, в MS EXCEL 2010 появилась новая функция МОДА.НСК() , которая возвращает несколько наиболее часто повторяющихся значений (если количество их повторов совпадает). НСК – это сокращение от слова НеСКолько.
Например, в массиве (1; 1; 2 ; 2 ; 2 ; 3; 4 ; 4 ; 4 ; 5) числа 2 и 4 встречаются наиболее часто – по 3 раза. Значит, оба числа являются модами . Функции МОДА.ОДН() и МОДА() вернут значение 2, т.к. 2 встречается первым, среди наиболее повторяющихся значений (см. файл примера , лист Мода ).
Теперь вспомним, что мы определили моду для выборки, т.е. для конечного множества значений, взятых из генеральной совокупности . Для непрерывных случайных величин вполне может оказаться, что выборка состоит из массива на подобие этого (0,935; 1,211; 2,430; 3,668; 3,874; …), в котором может не оказаться повторов и функция МОДА() вернет ошибку.
Даже в нашем массиве с модой , которая была определена с помощью надстройки Пакет анализа , творится, что-то не то. Действительно, модой нашего массива значений является число 477, т.к. оно встречается 2 раза, остальные значения не повторяются. Но, если мы посмотрим на гистограмму распределения , построенную для нашего массива, то увидим, что 477 не принадлежит интервалу наиболее часто встречающихся значений (от 150 до 250).
Проблема в том, что мы определили моду как наиболее часто встречающееся значение, а не как наиболее вероятное. Поэтому, моду в учебниках статистики часто определяют не для выборки (массива), а для функции распределения. Например, для логнормального распределения мода (наиболее вероятное значение непрерывной случайной величины х), вычисляется как exp ( m – s 2 ) , где m и s параметры этого распределения.
Понятно, что для нашего массива число 477, хотя и является наиболее часто повторяющимся значением, но все же является плохой оценкой для моды распределения, из которого взята выборка (наиболее вероятного значения или для которого плотность вероятности распределения максимальна).
Для того, чтобы получить оценку моды распределения, из генеральной совокупности которого взята выборка , можно, например, построить гистограмму . Оценкой для моды может служить интервал наиболее часто встречающихся значений (самого высокого столбца). Как было сказано выше, в нашем случае это интервал от 150 до 250.
Вывод : Значение моды для выборки , рассчитанное с помощью функции МОДА() , может ввести в заблуждение, особенно для небольших выборок. Эта функция эффективна, когда случайная величина может принимать лишь несколько дискретных значений, а размер выборки существенно превышает количество этих значений.
Примечание : Строго говоря, в примере с зарплатой мы имеем дело скорее с генеральной совокупностью , чем с выборкой . Т.к. других зарплат в компании просто нет.
О вычислении моды для распределения непрерывной случайной величины читайте статью Мода в MS EXCEL .
Асимметричность
Асимметричность или коэффициент асимметрии (skewness) характеризует степень несимметричности распределения ( плотности распределения ) относительно его среднего .
Примечание : Асимметрия выборки может отличаться расчетного значения асимметрии теоретического распределения. Например, Нормальное распределение является симметричным распределением ( плотность его распределения симметрична относительно среднего ) и, поэтому имеет асимметрию равную 0. Понятно, что при этом значения в выборке из соответствующей генеральной совокупности не обязательно должны располагаться совершенно симметрично относительно среднего . Поэтому, асимметрия выборки , являющейся оценкой асимметрии распределения , может отличаться от 0.
Функция СКОС() , английский вариант SKEW(), возвращает коэффициент асимметрии выборки , являющейся оценкой асимметрии соответствующего распределения, и определяется следующим образом:
где n – размер выборки , s – стандартное отклонение выборки .
В файле примера на листе СКОС приведен расчет коэффициента асимметрии на примере случайной выборки из распределения Вейбулла , которое имеет значительную положительную асимметрию при параметрах распределения W(1,5; 1).
Уровень надежности
Уровень надежности – означает вероятность того, что доверительный интервал содержит истинное значение оцениваемого параметра распределения.
Вместо термина Уровень надежности часто используется термин Уровень доверия . Про Уровень надежности (Confidence Level for Mean) читайте статью Уровень значимости и уровень надежности в MS EXCEL .
Задав значение Уровня надежности в окне надстройки Пакет анализа , MS EXCEL вычислит половину ширины доверительного интервала для оценки среднего (дисперсия неизвестна) .
Тот же результат можно получить по формуле (см. файл примера ): =ДОВЕРИТ.СТЬЮДЕНТ(1-0,95;s;n) s – стандартное отклонение выборки , n – объем выборки .
Подробнее см. статью про построение доверительного интервала для оценки среднего (дисперсия неизвестна) .
Аннотация: Лекция посвящена основам анализа данных, рассмотрены основные характеристики описательной статистики, кратко изложена суть корреляционного и регрессионного анализа. Приведены примеры решения задач в Microsoft Excel.
В этой лекции мы рассмотрим некоторые аспекты статистического анализа данных, в частности, описательную статистику , корреляционный и регрессионный анализы. Статистический анализ включает большое разнообразие методов, даже для поверхностного знакомства с которыми объема одной лекции слишком мало. Цель данной лекции - дать самое общее представление о понятиях корреляции, регрессии, а также познакомиться с описательной статистикой . Примеры, рассмотренные в лекции, намеренно упрощены.
Существует большое разнообразие прикладных пакетов, реализующих широкий спектр статистических методов, их также называют универсальными пакетами или инструментальными наборами. О таких наборах мы подробно поговорим в последнем разделе курса. В Microsoft Excel также реализован широкий арсенал методов математической статистики, реализация примеров данной лекции продемонстрирована именно на этом программном обеспечении.
Следует заметить, что существует сложность использования статистических методов, так же как и статистического программного обеспечения, - для этого пользователю необходимы специальные знания.
Анализ данных в Microsoft Excel
Microsoft Excel имеет большое число статистических функций . Некоторые являются встроенными, некоторые доступны после установки пакета анализа . В данной лекции мы воспользуемся именно этим программным обеспечением.
Обращение к Пакету анализа . Средства, включенные в пакет анализа данных, доступны через команду Анализ данных меню Сервис. Если эта команда отсутствует в меню , в меню Сервис/Надстройки необходимо активировать пункт "Пакет анализа".
Далее мы рассмотрим некоторые инструменты, включенные в Пакет анализа .
Описательная статистика
Описательная статистика (Descriptive statistics ) - техника сбора и суммирования количественных данных, которая используется для превращения массы цифровых данных в форму, удобную для восприятия и обсуждения.
Цель описательной статистики - обобщить первичные результаты, полученные в результате наблюдений и экспериментов.
Пусть дан набор данных А, представленный в таблице 8.1.
Выбрав в меню Сервис "Пакет анализа" и выбрав инструмент анализа "Описательная статистика", получаем одномерный статистический отчет, содержащий информацию о центральной тенденции и изменчивости или вариации входных данных.
В состав описательной статистики входят такие характеристики: среднее ; стандартная ошибка ; медиана ; мода; стандартное отклонение ; дисперсия выборки; эксцесс ; асимметричность; интервал ; минимум ; максимум ; сумма; счет.
Отчет " Описательная статистика " для двух переменных их набора данных А приведен в таблице 8.2.
Рассмотрим, что же представляют собой характеристики описательной статистики .
Основными средствами анализа статистических данных в Excel являются статистические процедуры надстройки Пакет анализа (Analysis ToolРак) и статистические функции библиотеки встроенных функций. Основные сведения обо всех этих средствах имеются в электронной справочной системе Excel.
Однако качество описаний статистических процедур и функций, приведенных в этой системе, заставляет желать лучшего. Некоторые из этих описаний не очень понятны, в них имеются неточности, а подчас и просто ошибки (это относится как к англоязычному оригиналу, так и к русскому переводу). Эти недостатки с завидным постоянством повторяются и во многих пособиях по Excel. Найти необходимые пособия в интернете можно быстро если скачать бесплатно Амиго браузер с усовершенствованным поисковым алгоритмом.
Статистические процедуры Пакета анализа
Наиболее развитыми средствами анализа данных являются статистические процедуры Пакета анализа. Они обладают большими возможностями, чем статистические функции. С их помощью можно решать более сложные задачи обработки статистических данных и выполнять более тонкий анализ этих данных.
В Пакет анализа входят следующие статистические процедуры:
- генерация случайных чисел (Random number generation);
- выборка (Sampling);
- гистограмма (Histogram);
- описательная статистика (Descriptive statistics);
- ранги персентиль (Rank and percentile);
- двухвыборочный z-тест для средних (z-Test: Two Sample for Means);
- двухвыборочный t-тест для средних с одинаковыми дисперсиями (t-Test: Two-Sample Assuming Equal Variances);
- двухвыборочный t-тест для средних с различными дисперсиями (t-Test: Two-Sample Assuming Unequal Variances);
- парный двухвыборочный t-тест для средних (t-Test: Paired Two Sample for Means);
- двухвыборочный F-тест да я дисперсий (F-Test: Two Sample for Variances);
- коварнация (Covariance);
- корреляция (Correlation);
- рецессия (Regression);
- однофакторный дисперсионный анализ (ANOVA: Single Factor);
- двухфакторный дисперсионный анализ без повторений (ANOVA: Two Factor Without Replication);
- двухфакторный дисперсионный анализ с повторениями (ANOVA: Two Factor With Replication);
- скользящее среднее (Moving Average);
- экспоненциальное сглаживание (Exponential Smoothing);
- анализ Фурье (Fourier Analysis).
Для доступа к процедурам Пакета анализа необходимо в меню Сервис (Tools) щелкнуть указателем мыши на строке Анализ данных (Data Analysis). Откроется диалоговое окно с соответствующим названием, в котором перечислены процедуры статистического анализа данных (рис. 1).
Рис.1. Диалоговое окно Анализ данных
Для того чтобы запустить в работу нужную статистическую процедуру, нужно выделить ее указателем мыши и щелкнуть на кнопке ОК. На экране появится диалоговое окно вызванной процедуры. На рис. 2 для примера показано диалоговое окно процедуры Описательная статистика (Descriptive statistics).
Рис.2. Диалоговое окно процедуры Описательная статистика
Диалоговое окно каждой процедуры содержит элементы управления: поля ввода, раскрывающиеся списки, переключатели, флажки и т. п. Эти элементы позволяют задать нужные параметры используемой процедуры. Некоторые элементы управления имеют специфический характер, присущий одной процедуре или небольшой группе процедур. Назначение таких элементов управления будет рассмотрено при описании соответствующих процедур. Другие элементы управления присутствуют в диалоговых окнах почти всех статистических процедур.
К числу общих для большинства процедур элементов управления относятся:
В положении Новый рабочий лист открывается новый лист рабочей книги. На этот лист, начиная с ячейки А1, и выводится таблица результатов решения. Справа от переключателя имеется поле ввода, в которое в случае необходимости можно ввести имя нового рабочего листа. При выборе переключателя Новая рабочая книга открывается новая рабочая книга. На первый лист этой новой книги, начиная с ячейки А1, выводится таблица результатов решения.
Следует заметить, что результаты;, получаемые с помощью статистических процедур Пакета анализа, не имеют постоянной связи с исходными данными — в случае изменения исходных данных результаты решения автоматически не изменяются. В том случае, когда необходимо получить результаты, автоматически изменяющиеся вместе с исходными данными, нужно использовать подходящие статистические функции библиотеки встроенных функций.
Эффективным и очень удобным в использовании средством парного регрессионного анализа и анализа временных рядов является процедура Добавить линию тренда (Add Trendline), входящая в комплекс графических средств Excel.
Статистические функции библиотеки встроенных функций Excel
Табличный процессор Excel имеет библиотеку встроенных функции рабочего листа (Worksheet function). Одним из разделов этой библиотеки является раздел Статистические функции. В этот раздел входят 83 функции, предназначенные для решения некоторых наиболее востребованных задач теории вероятностей и математической статистики.
Аргументы статистических функций должны быть числами или ссылками на диапазоны, которые содержат числа Если аргумент, который является массивом или ссылкой, содержит тексты, логические значения или пустые ячейки, то такие значения игнорируются, однако ячейки с нулевыми значениями учитываются.
Исходные данные для анализа могут быть представлены на рабочем листе в виде списка значений. Для идентификации массива значений используются названия столбцов – метки, и создаются именованные блоки.
Для обработки числовых данных используют Пакет анализа. Предварительно его необходимо настроить,
в Excel 2003: дать команду Сервис -> Надстройки и поставить галочку напротив Пакета анализа. Теперь в меню Сервис появится команда Анализ данных.
в Excel 2007:щелкнуть по кнопке Офис, далее по кнопе Параметры Excel, выбрать Надстройки, в нижней части окна в поле Управления выбрать Надстройки Excel , щелкнуть по кнопке Перейти, поставить галочку напротив Пакета анализа ю На вкладке Данные в группе Анализ появится команда Анализ данных
При выполнении команды Анализ данных вызывается диалоговое окно Анализ данных, в котором выбирается режим Описательная статистика (рис. 23); в одноименном диалоговом окне задаются установки:
рис. Диалоговое окно режима Описательная статистика.
Группирование определяет ориентацию блока исходных данных на рабочем листе. Для его определения надо установить переключатель в положение По столбцам или По строкам в зависимости от расположения данных во входном диапазоне.
Метки – наличие имен в блоке ячеек. Для его определения надо установить переключатель в положение Метки в первой строке (столбце), если первая строка (столбец) во входном диапазоне содержит названия столбцов. Если входной диапазон не содержит меток, то необходимые заголовки в выходном диапазоне будут созданы автоматически.
Уровень надежности указывает процент надежности данных для вычисления доверительного интервала. Для его определения надо установить флажок и в поле ввести требуемое значение. Например, значение 95% вычисляет уровень надежности среднего со значимостью 0.05.
К-ый наибольший – порядковый номер наибольшего после максимального значения. Установить флажок, если в выходную таблицу необходимо включить строку для k-го наибольшего значения для каждого диапазона данных. В соответствующем окне ввести число k. Если k равно 1, эта строка будет содержать максимум из набора данных.
К-ый наименьший – порядковый номер наименьшего после минимального значения. Установить флажок, если в выходную таблицу необходимо включить строку для k-го наименьшего значения для каждого диапазона данных. В соответствующем окне ввести число k. Если k равно 1, эта строка будет содержать минимум из набора данных.
Вывод описательной статистики осуществляется по месту указания в поле Выходной диапазон. Здесь надо ввести ссылку на левую верхнюю ячейку выходного диапазона. Этот инструмент анализа выводит два столбца сведений для каждого набора данных. Левый столбец содержит метки статистических данных; правый столбец содержит статистические данные. Состоящий их двух столбцов диапазон статистических данных будет выведен для каждого столбца (строки) входного диапазона в зависимости от положения переключателя Группирование.
Для изменения места вывода результатов можно установить переключатель Новый рабочий лист, чтобы открыть новый лист и вставить результаты, начиная с ячейки A1. Можно ввести имя нового листа в поле, расположенном напротив соответствующего положения переключателя. Если установить переключатель Новая книга, то открывается новая книга, и результаты вставляются в ячейку A1 на первом листе в этой книге.
Читайте также: