Как посчитать ковариацию в excel
Функция ЧАСТОТА в Excel вычисляет, сколько раз значения данных встречаются в заданном диапазоне значений. Он возвращает вертикальный массив чисел, соответствующий частоте каждого значения в диапазоне. Это встроенная функция Excel, относящаяся к категории статистических функций.
Формула ЧАСТОТЫ в Excel
Ниже представлена формула ЧАСТОТЫ в Excel.
Аргументы, используемые для формулы ЧАСТОТА в Excel.
- Data_array Необходимые. Массив или ссылка на набор значений, для которых нужно подсчитать частоты.
- Bins_array Необходимые. Массив или ссылка на интервалы, в которых значения в data_array должны быть сгруппированы.
Объяснение функции ЧАСТОТА в Excel
Частота возвращает массив значений, и поэтому ее необходимо ввести как формулу массива, то есть нажать CTRL + Shift + Enter (или Command + Shift + Enter для Mac). Ячейки, в которые требуется вывод, эти ячейки должны быть выбраны в первую очередь, а затем вводится формула ЧАСТОТА в excel, после чего она вводится как формула массива.
Выберите ячейки à Введите формулу à Нажмите CTRL + Shift + Enter.
Возврат
ЧАСТОТА Функция в Excel возвращает частотное распределение data_array в bins_array интервалы. Результат всегда на единицу больше, чем количество элементов в bins_array. Дополнительный элемент в возвращаемом массиве соответствует количеству значений, превышающих самый высокий элемент bins_array. Предположим, что bins_array содержит три элемента , функция вернет четыре элемента < 6>.
Если данные_массив не содержит значений, функция ЧАСТОТА Excel возвращает массив нулей. Если bins_array не содержит значений, функция ЧАСТОТА Excel возвращает общее количество элементов, указанных в data_array.
Предположим, у вас есть числа, для которых вы хотите рассчитать частоту. Цифры приведены в B3: B11.
Номера должны быть разбиты на интервалы: , указанные в D3: D5.
Чтобы вычислить частоту, сначала выберите четыре ячейки E3: E6, а затем следующий синтаксис:
= ЧАСТОТА (B3: B11; D3: B5)
и нажмите CTRL + Shift + Enter.
Поскольку количество возвращаемых элементов на единицу больше, чем количество элементов в bins_array, в этом случае вам нужно выделить четыре ячейки.
Он вернет частоту.
Данный выход соответствует интервалу < 6>.
Если вы выберете только три ячейки вместо четырех, счет «больше 6» будет опущен, как показано ниже.
Как использовать функцию ЧАСТОТА в Excel?
Функция ЧАСТОТА в Excel очень проста и удобна в использовании. Давайте разберемся с работой FREQUENCY in excel на некоторых примерах.
Предположим, вы провели опрос и собрали данные о росте, как показано ниже.
Теперь вы хотите рассчитать частоту роста в следующих интервалах:
Интервалы приведены в E4: E7.
Чтобы вычислить частоту, сначала выберите пять последовательных ячеек (4 + 1).
Затем введите следующий синтаксис:
= ЧАСТОТА (B4: B14; E4: E7)
и нажмите CTRL + Shift + Enter.
Он вернет частоту.
Предположим, у вас есть список удостоверений учащихся, не сдавших экзамен по одному или другим предметам в вашем классе, а также предметы, как показано ниже.
Теперь все те, кто потерпел неудачу (по одному или нескольким предметам), будут считаться «провалившимися». Теперь вам нужно знать количество студентов, которые проиграли.
Чтобы определить это, вы можете использовать следующий синтаксис:
= СУММ (- (ЧАСТОТА (B4: B9; B4: B9)> 0))
Давайте подробно рассмотрим синтаксис:
ЧАСТОТА (B4: B9, B4: B9) вычислит частоту данных B4: B9 с использованием интервала B4: B9. Он вернет
FREQUENCY (B4: B9, B4: B9)> 0 проверяет, больше ли полученная частота нуля. Он возвращает логическое ИСТИНА, если оно больше нуля, иначе ЛОЖЬ. Он вернет
SUM (- (FREQUENCY (..)> 0)) затем суммирует ИСТИНА и возвращает количество уникальных значений.
Предположим, у вас есть данные о клиентах, посещенных в супермаркете за день, а также время их посещения в ячейках B4: C20, как показано ниже.
Теперь вы хотите узнать, в какие промежутки времени покупатели чаще всего посещали магазин. Это поможет вам эффективно спланировать рабочее время сотрудников. Магазин открывается в 11:00 и закрывается в 20:00.
Давайте сначала определимся с временным интервалом. Мы можем использовать следующие интервалы для простоты:
- 11:00 УТРА
- 12:00 УТРА
- 1:00 ВЕЧЕРА
- 14:00
- 3:00 ВЕЧЕРА
- 4:00 ВЕЧЕРА
- 5:00 ВЕЧЕРА
- 18:00
- 7:00 ВЕЧЕРА
- 8:00 ВЕЧЕРА
Теперь выберите ячейки в частотной таблице, чтобы получить. G4: в данном случае G13. Поскольку магазин закрывается в 20:00, мы не выбираем ячейку для> 20:00, так как во всех случаях она будет равна нулю.
Теперь введите следующий синтаксис:
= ЧАСТОТА (B4: C39, G4: G13)
и нажмите CTRL + Shift + Enter.
Он вернет частоту посещения магазина покупателем. В этом случае большинство посещений приходилось на период с 17:00 до 18:00.
Коэффициент вариации в статистике применяется для сравнения разброса двух случайных величин с разными единицами измерения относительно ожидаемого значения. В итоге можно получить сопоставимые результаты. Показатель наглядно иллюстрирует однородность временного ряда.
Коэффициент вариации используется также инвесторами при портфельном анализе в качестве количественного показателя риска, связанного с вложением средств в определенные активы. Особенно эффективен в ситуации, когда у активов разная доходность и различный уровень риска. К примеру, у одного актива высокая ожидаемая доходность, а у другого – низкий уровень риска.
Как рассчитать коэффициент вариации в Excel
Коэффициент вариации представляет собой отношение среднеквадратического отклонения к среднему арифметическому. Для расчета в статистике используется следующая формула:
- CV – коэффициент вариации;
- σ – среднеквадратическое отклонение по выборке;
- ǩ – среднеарифметическое значение разброса значений.
Коэффициент вариации позволяет сравнить риск инвестирования и доходность двух и более портфелей активов. Причем последние могут существенно отличаться. То есть показатель увязывает риск и доходность. Позволяет оценить отношение между среднеквадратическим отклонением и ожидаемой доходностью в относительном выражении. Соответственно, сопоставить полученные результаты.
При принятии инвестиционного решения необходимо учитывать следующий момент: когда ожидаемая доходность актива близка к 0, коэффициент вариации может получиться большим. Причем показатель значительно меняется при незначительном изменении доходности.
В Excel не существует встроенной функции для расчета коэффициента вариации. Но можно найти частное от стандартного отклонения и среднего арифметического значения. Рассмотрим на примере.
Доходность двух ценных бумаг за предыдущие пять лет:
Наглядно это можно продемонстрировать на графике:
Обычно показатель выражается в процентах. Поэтому для ячеек с результатами установлен процентный формат.
Значение коэффициента для компании А – 33%, что свидетельствует об относительной однородности ряда. Формула расчета коэффициента вариации в Excel:
Сравните: для компании В коэффициент вариации составил 50%: ряд не является однородным, данные значительно разбросаны относительно среднего значения.
Интерпретация результатов
Прежде чем включить в инвестиционный портфель дополнительный актив, финансовый аналитик должен обосновать свое решение. Один из способов – расчет коэффициента вариации.
Ожидаемая доходность ценных бумаг составит:
Среднеквадратическое отклонение доходности для активов компании А и В составляет:
Ценные бумаги компании В имеют более высокую ожидаемую доходность. Они превышают ожидаемую доходность компании А в 1,14 раза. Но и инвестировать в активы предприятия В рискованнее. Риск выше в 1,7 раза. Как сопоставить акции с разной ожидаемой доходностью и различным уровнем риска?
Для сопоставления активов двух компаний рассчитан коэффициент вариации доходности. Показатель для предприятия В – 50%, для предприятия А – 33%. Риск инвестирования в ценные бумаги фирмы В выше в 1,54 раза (50% / 33%). Это означает, что акции компании А имеют лучшее соотношение риск / доходность. Следовательно, предпочтительнее вложить средства именно в них.
Таким образом, коэффициент вариации показывает уровень риска, что может оказаться полезным при включении нового актива в портфель. Показатель позволяет сопоставить ожидаемую доходность и риск. То есть величины с разными единицами измерения.
Коэффициент корреляции ( критерий корреляции Пирсона, англ. Pearson Product Moment correlation coefficient) определяет степень линейной взаимосвязи между случайными величинами.
где Е[…] – оператор математического ожидания , μ и σ – среднее случайной величины и ее стандартное отклонение .
Как следует из определения, для вычисления коэффициента корреляции требуется знать распределение случайных величин Х и Y. Если распределения неизвестны, то для оценки коэффициента корреляции используется выборочный коэффициент корреляции r ( еще он обозначается как R xy или r xy ) :
Как видно из формулы для расчета корреляции , знаменатель (произведение стандартных отклонений с точностью до безразмерного множителя) просто нормирует числитель таким образом, что корреляция оказывается безразмерным числом от -1 до 1. Корреляция и ковариация предоставляют одну и туже информацию, но корреляцией удобнее пользоваться, т.к. она является безразмерной величиной.
Рассчитать коэффициент корреляции и ковариацию выборки в MS EXCEL не представляет труда, так как для этого имеются специальные функции КОРРЕЛ() и КОВАР() . Гораздо сложнее разобраться, как интерпретировать полученные значения, большая часть статьи посвящена именно этому.
Теоретическое отступление
Напомним, что корреляционной связью называют статистическую связь, состоящую в том, что различным значениям одной переменной соответствуют различные средние значения другой (с изменением значения Х среднее значение Y изменяется закономерным образом). Предполагается, что обе переменные Х и Y являются случайными величинами и имеют некий случайный разброс относительно их среднего значения .
Примечание . Если случайную природу имеет только одна переменная, например, Y, а значения другой являются детерминированными (задаваемыми исследователем), то можно говорить только о регрессии.
Таким образом, например, при исследовании зависимости среднегодовой температуры нельзя говорить о корреляции температуры и года наблюдения и, соответственно, применять показатели корреляции с соответствующей их интерпретацией.
Корреляционная связь между переменными может возникнуть несколькими путями:
- Наличие причинной зависимости между переменными. Например, количество инвестиций в научные исследования (переменная Х) и количество полученных патентов (Y). Первая переменная выступает как независимая переменная (фактор) , вторая - зависимая переменная (результат) . Необходимо помнить, что зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.
- Наличие сопряженности (общей причины). Например, с ростом организации растет фонд оплаты труда (ФОТ) и затраты на аренду помещений. Очевидно, что неправильно предполагать, что аренда помещений зависит от ФОТ. Обе этих переменных во многих случаях линейно зависят от количества персонала.
- Взаимовлияние переменных (при изменении одной, вторая переменная изменяется, и наоборот). При таком подходе допустимы две постановки задачи; любая переменная может выступать как в роли независимой переменной и в роли зависимой.
Таким образом, показатель корреляции показывает, насколько сильна линейная взаимосвязь между двумя факторами (если она есть), а регрессия позволяет прогнозировать один фактор на основе другого.
Корреляция , как и любой другой статистический показатель, при правильном применении может быть полезной, но она также имеет и ограничения по использованию. Если диаграмма рассеяния показывает четко выраженную линейную зависимость или полное отсутствие взаимосвязи, то корреляция замечательно это отразит. Но, если данные показывают нелинейную взаимосвязь (например, квадратичную), наличие отдельных групп значений или выбросов, то вычисленное значение коэффициента корреляции может ввести в заблуждение (см. файл примера ).
Корреляция близкая к 1 или -1 (т.е. близкая по модулю к 1) показывает сильную линейную взаимосвязь переменных, значение близкое к 0 показывает отсутствие взаимосвязи. Положительная корреляция означает, что с ростом одного показателя другой в среднем увеличивается, а при отрицательной – уменьшается.
Для вычисления коэффициента корреляции требуется, чтобы сопоставляемые переменные удовлетворяли следующим условиям:
- количество переменных должно быть равно двум;
- переменные должны быть количественными (например, частота, вес, цена). Вычисленное среднее значение этих переменных имеет понятный смысл: средняя цена или средний вес пациента. В отличие от количественных, качественные (номинальные) переменные принимают значения лишь из конечного набора категорий (например, пол или группа крови). Этим значениям условно сопоставлены числовые значения (например, женский пол – 1, а мужской – 2). Понятно, что в этом случае вычисление среднего значения , которое требуется для нахождения корреляции , некорректно, а значит некорректно и вычисление самой корреляции ;
- переменные должны быть случайными величинами и иметь нормальное распределение.
Двумерные данные могут иметь различную структуру. Для работы с некоторыми из них требуются определенные подходы:
- Для данных с нелинейной связью корреляцию нужно использовать с осторожностью. Для некоторых задач бывает полезно преобразовать одну или обе переменных так, чтобы получить линейную взаимосвязь (для этого требуется сделать предположение о виде нелинейной связи, чтобы предложить нужный тип преобразования).
- С помощью диаграммы рассеяния у некоторых данных можно наблюдать неравную вариацию (разброс). Проблема неодинаковой вариации состоит в том, что места с высокой вариацией не только предоставляют наименее точную информацию, но и оказывают наибольшее влияние при расчете статистических показателей. Эту проблему также часто решают с помощью преобразования данных, например, с помощью логарифмирования.
- У некоторых данных можно наблюдать разделение на группы (clustering), что может свидетельствовать о необходимости разделения совокупности на части.
- Выброс (резко отклоняющееся значение) может исказить вычисленное значение коэффициента корреляции. Выброс может быть причиной случайности, ошибки при сборе данных или могут действительно отражать некую особенность взаимосвязи. Так как выброс сильно отклоняется от среднего значения, то он вносит большой вклад при расчете показателя. Часто расчет статистических показателей производят с и без учета выбросов.
Использование MS EXCEL для расчета корреляции
В качестве примера возьмем 2 переменные Х и Y и, соответственно, выборку состоящую из нескольких пар значений (Х i ; Y i ). Для наглядности построим диаграмму рассеяния .
Примечание : Подробнее о построении диаграмм см. статью Основы построения диаграмм . В файле примера для построения диаграммы рассеяния использована диаграмма График , т.к. мы здесь отступили от требования случайности переменной Х (это упрощает генерацию различных типов взаимосвязей: построение трендов и заданный разброс). В случае реальных данных необходимо использовать диаграмму типа Точечная (см. ниже).
Расчеты корреляции проведем для различных случаев взаимосвязи между переменными: линейной, квадратичной и при отсутствии связи .
Примечание : В файле примера можно задать параметры линейного тренда (наклон, пересечение с осью Y) и степень разброса относительно этой линии тренда. Также можно настроить параметры квадратичной зависимости.
В файле примера для построения диаграммы рассеяния в случае отсутствия зависимости переменных использована диаграмма типа Точечная. В этом случае точки на диаграмме располагаются в виде облака.
Примечание : Обратите внимание, что изменяя масштаб диаграммы по вертикальной или горизонтальной оси, облаку точек можно придать вид вертикальной или горизонтальной линии. Понятно, что при этом переменные останутся независимыми.
Как было сказано выше, для расчета коэффициента корреляции в MS EXCEL существует функций КОРРЕЛ() . Также можно воспользоваться аналогичной функцией PEARSON() , которая возвращает тот же результат.
Для того, чтобы удостовериться, что вычисления корреляции производятся функцией КОРРЕЛ() по вышеуказанным формулам, в файле примера приведено вычисление корреляции с помощью более подробных формул:
Примечание : Квадрат коэффициента корреляции r равен коэффициенту детерминации R2, который вычисляется при построении линии регрессии с помощью функции КВПИРСОН() . Значение R2 также можно вывести на диаграмме рассеяния , построив линейный тренд с помощью стандартного функционала MS EXCEL (выделите диаграмму, выберите вкладку Макет , затем в группе Анализ нажмите кнопку Линия тренда и выберите Линейное приближение ). Подробнее о построении линии тренда см., например, в статье о методе наименьших квадратов .
Использование MS EXCEL для расчета ковариации
Ковариация близка по смыслу с дисперсией (также является мерой разброса) с тем отличием, что она определена для 2-х переменных, а дисперсия - для одной. Поэтому, cov(x;x)=VAR(x).
Для вычисления ковариации в MS EXCEL (начиная с версии 2010 года) используются функции КОВАРИАЦИЯ.Г() и КОВАРИАЦИЯ.В() . В первом случае формула для вычисления аналогична вышеуказанной (окончание .Г обозначает Генеральная совокупность ), во втором – вместо множителя 1/n используется 1/(n-1), т.е. окончание .В обозначает Выборка .
Примечание : Функция КОВАР() , которая присутствует в MS EXCEL более ранних версий, аналогична функции КОВАРИАЦИЯ.Г() .
Примечание : Функции КОРРЕЛ() и КОВАР() в английской версии представлены как CORREL и COVAR. Функции КОВАРИАЦИЯ.Г() и КОВАРИАЦИЯ.В() как COVARIANCE.P и COVARIANCE.S.
Дополнительные формулы для расчета ковариации :
Эти формулы используют свойство ковариации :
Если переменные x и y независимые, то их ковариация равна 0. Если переменные не являются независимыми, то дисперсия их суммы равна:
VAR(x+y)= VAR(x)+ VAR(y)+2COV(x;y)
А дисперсия их разности равна
VAR(x-y)= VAR(x)+ VAR(y)-2COV(x;y)
Оценка статистической значимости коэффициента корреляции
При проверке значимости коэффициента корреляции нулевая гипотеза состоит в том, что коэффициент корреляции равен нулю, альтернативная - не равен нулю (про проверку гипотез см. статью Проверка гипотез ).
Для того чтобы проверить гипотезу, мы должны знать распределение случайной величины, т.е. коэффициента корреляции r. Обычно, проверку гипотезы осуществляют не для r, а для случайной величины t r :
которая имеет распределение Стьюдента с n-2 степенями свободы.
Если вычисленное значение случайной величины |t r | больше, чем критическое значение t α,n-2 (α- заданный уровень значимости ), то нулевую гипотезу отклоняют (взаимосвязь величин является статистически значимой).
Надстройка Пакет анализа
В надстройке Пакет анализа для вычисления ковариации и корреляции имеются одноименные инструменты анализа .
После вызова инструмента появляется диалоговое окно, которое содержит следующие поля:
Надстройка возвращает вычисленные значения корреляции и ковариации (для ковариации также вычисляются дисперсии обоих случайных величин).
Объяснение
Ковариационная матрица представляет собой квадратную матрицу для понимания взаимосвязей, представленных между различными переменными в наборе данных. Легко и полезно показать ковариацию между двумя или более переменными.
Ковариация будет иметь как положительные, так и отрицательные значения. Положительное значение указывает, что две переменные будут уменьшаться или увеличиваться в одном направлении. Отрицательное значение указывает, что если одна переменная уменьшается, другая увеличивается, и между ними существует обратная связь. Ковариационная матрица представлена в следующем формате. Трехмерная ковариационная матрица показана как
Чтобы создать квадратную ковариационную матрицу 3 × 3, нам нужны трехмерные данные. Диагональные значения матрицы представляют собой дисперсии переменных X, Y и Z (т. Е. COV (X, X), COV (Y, Y) и COV (Z, Z)). Ковариационная матрица симметрична относительно диагонали. Это означает, что COV (X, Y) = COV (Y, X), COV (X, Z) = COV (Z, X) и COV (Y, Z) = COV (Z, Y). Об этой матрице следует помнить, что она является результатом ковариационной матрицы NXN для данных n-мерного размера.
Как использовать матрицу ковариации в Excel?
Ковариационная матрица используется в различных приложениях, в том числе
Примеры ковариационной матрицы в Excel
Ниже приведены некоторые примеры использования ковариационной матрицы в Excel.
Выполнение ковариационного анализа оценок, полученных студентами по разным предметам.
Шаг 1: Следующие данные, включая оценки учащихся по математике, английскому языку и естествознанию, считаются такими, как показано на рисунке.
Шаг 2: Перейдите на вкладку «Данные» на ленте и найдите в правом углу набор инструментов «Анализ данных».
Если пакет инструментов «Анализ данных» недоступен, выполните следующие действия.
Шаг А: Перейдите на вкладку «Файл» и выберите «Параметры».
Откроется следующий экран.
Шаг B: Зайдите в Надстройки. В разделе «Параметры управления» убедитесь, что выбран «Надстройки Excel», и нажмите кнопку «Перейти», как показано на рисунке.
Шаг C: Выберите «Analysis-Tool Pak» и «Analysis-ToolPak VBA», как показано на снимке экрана.
После выполнения этих шагов пакет инструментов «Анализ данных» добавляется на вкладку «Данные».
Шаг 3: Щелкните Анализ данных. Откроется диалоговое окно «Анализ данных». Выберите «Ковариацию», прокрутив вверх, и нажмите «ОК».
Он отображает диалоговое окно «Ковариация».
Шаг 5: Выберите диапазон ввода, включая имена субъектов, отметьте «метки в первой строке» и укажите «диапазон вывода» на существующем листе. И нажмите «ОК».
Верхняя часть диагонали пуста, так как ковариационная матрица Excel симметрична относительно диагонали.
Выполните расчет ковариационной матрицы, чтобы определить отклонения между доходностью различных акций портфеля.
Шаг 1: В этом примере учитываются следующие данные, включая доходность акций.
Шаг 2: Открывает диалоговое окно «Анализ данных» и выбирает «Ковариацию», прокручивая вверх и нажимая «ОК».
Он отображает диалоговое окно «Ковариация».
Шаг 3: Выберите диапазон ввода, включая заголовки, отметьте «метки в первой строке» и укажите «диапазон вывода» на существующем листе. И нажмите «ОК».
Верхняя часть диагонали пуста, поскольку ковариационная матрица симметрична по отношению к диагонали.
Расчет ковариационной матрицы котировок акций корпоративных компаний
Шаг 1: В этом примере рассматриваются следующие данные, включая цены на акции различных компаний.
Шаг 2: Открывает диалоговое окно «Анализ данных», выбирает «Ковариацию», прокручивая вверх, и нажимает «ОК».
Он отображает диалоговое окно «Ковариация».
Шаг 3: Выберите диапазон ввода, включая заголовки, отметьте «метки в первой строке» и укажите «диапазон вывода» на существующем листе и нажмите «ОК».
Читайте также: