Центральный момент третьего порядка excel
Необходимые характеристики должны быть рассчитаны как для исходного ряда значений каждого признака (с помощью функций MS Excel), так и для сгруппированных данных. При этом последние являются приближенными значениями искомых характеристик.
1. Характеристики центра и структуры распределения
Средняя величина - обобщающая количественная характеристика признака в статистической совокупности, отражающая типичный уровень этого признака в расчете на единицу совокупности.
Средняя величина для несгруппированных данных:
где xi – значение признака у i–ой единицы совокупности;
N - объем совокупности.
Среднее значение по исходным данным определяются с помощью функции СРЗНАЧ. Вызываем функцию (из категории «Статистические»):
= СРЗНАЧ(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее (выделить для первого аргумента столбец исходных значений признака).
Средняя величина для интервально сгруппированных данных:
где х н j, х в j - нижняя и верхняя граница j–ого интервала;
k – число групп;
fj – вес усреднения для j-ой группы (в качестве весов усреднения берут частоты/частости).
К структурным характеристикам ряда распределения относятся квантили распределения и мода.
Квантиль распределения(Qi) – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Основными квантильными характеристиками являются:
- медиана (Ме) - значение признака, приходящееся на середину упорядоченной совокупности,
- квартили (Q1/4, Q2/4=Ме, Q3/4) – значения признака, делящие упорядоченную совокупность на 4 равные (по числу единиц) части,
- децили (Q0,1,Q0,2,…,Q0,9) – значения признака, делящие упорядоченную совокупность на 10 равных частей.
Квантили для несгруппированных данных определяются по упорядоченным значениям механически, путем определения номера искомого наблюдения.
Квантили распределения по исходным данным определяются с помощью функций МЕДИАНА, КВАРТИЛЬ, ПРОЦЕНТИЛЬ. Вызываем необходимую функцию (из категории «Статистические»):
= МЕДИАНА(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется медиана (выделить для первого аргумента столбец исходных значений признака).
= КВАРТИЛЬ(массив;часть)
где массив – это столбец исходных значений признака, для которых определяется значение квартиля;
часть – это значение, определяющее уровень квартиля: для Q1/4 – 1, для Q3/4 - 3.
= ПРОЦЕНТИЛЬ(массив;К)
где массив – это столбец исходных значений признака, для которых определяется значение К-ого процентиля (может использоваться для определения квартилей и децилей);
К – это значение, определяющее уровень процентиля: для Q0,1 – 0.1, для Q0,9 – 0.9; для Q1/4 – 0.25, для Q3/4 – 0.75 .
Результаты расчета характеристик по функциям MS Excel:
Для сгруппированых данных предварительно определяется группа, которая содержит i-ый квантиль: та группа от начала ряда, в которой сумма накопленных частот равна или превышает N·i, где i- индекс квантиля.
Квантили для интервально сгруппированных данных:
где Xqi - нижняя граница интервала, в котором находится i - ый квантиль;
- величина интервала, в котором находится i - ый квантиль;
F(-1) – сумма накопленных частот интервалов, предшествующих интервалу, в котором находится i - ый квантиль;
Nqi – частота интервала, в котором находится i - ый квантиль.
Мода (Мо) – наиболее часто встречающееся значение признака в совокупности.
Для не сгруппированных данных мода обычно не определяется. Если признак принимает ограниченное число значений и они повторяются, можно определить моду с помощью функции МОДА. Вызываем функцию (из категории «Статистические»):
= МОДА(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется мода (выделить для первого аргумента столбец исходных значений признака).
Для интервально сгруппированного ряда мода – это значение признака, которому соответствует наибольшая плотность распределения. Для сгруппированых данных предварительно определяется группа, которая содержит моду: та группа, которой соответствует максимальная частота/частость или плотность распределения (для не равноинтервальных – только по максимальной плотности). Далее значение моды уточняется по формуле:
где XMo - нижняя граница интервала, в котором находится мода;
- величина модального интервала;
NMо, NMо-1, NMо+1 – частоты, соответственно, модального, предшествующего и последующего интервалов.
Расчет моды по данной формуле предполагает, что модальный, предшествующий и последующий интервалы – это интервалы одинаковой длины.
Таблица 3. Расчет характеристик центра и структуры распределения
Границы интервала | Частота | Накопленная частота | Середина интервала | Сер. инт. × Частота |
нижняя | верхняя | |||
12 Мо | 12 Q1/4, Q1/10 | |||
22 Ме | ||||
30 Q3/4 | ||||
39 Q9/10 | ||||
Итого | - | - |
Расчет характеристик (см. табл. 3):
Среднее: млн. у.е./год
Медиана: млн. у.е./год
1 квартиль: млн. у.е./год
3 квартиль: млн. у.е./год
1 дециль: млн. у.е./год
9 дециль: млн. у.е./год
2. Характеристики вариации
Для измерения рассеяния (вариации) признака применяются различные абсолютные и относительные показатели вариации.
Абсолютные показатели вариации:
- Размах вариации, R - разность между максимальным и минимальным значениями признака в совокупности:
- Среднее линейное отклонение, d - средняя арифметическая абсолютных значений отклонений отдельных вариант от их средней арифметической. Для не сгруппированных и сгруппированных данных, соответственно:
где N – объем совокупности;
k - число групп;
fj – частота/частость в j – ой группе.
- Среднее квадратическое отклонение, s - средняя квадратическая из отклонений отдельных вариант от их средней арифметической. Для не сгруппированных и сгруппированных данных, соответственно:
- Дисперсия, s 2 - средний квадрат отклонений вариант от их средней величины (квадрат среднего квадратического отклонения). Может быть также вычислена, как разность среднего квадрата значения признака и квадрата среднего арифметического значения признака:
Абсолютные показатели вариации по исходным данным определяются с помощью функций СРОТКЛ, СТАНДОТКЛОН, ДИСП. Вызываем необходимую функцию (из категории «Статистические»):
= СРОТКЛ(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее линейное отклонение (выделить для первого аргумента столбец исходных значений признака).
= СТАНДОТКЛОН(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее квадратическое отклонение (выделить для первого аргумента столбец исходных значений признака).
= ДИСП(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется дисперсия (выделить для первого аргумента столбец исходных значений признака).
Самым распространенным относительным показателем рассеяния является коэффициент вариации. Он представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:
Коэффициент вариации используют как характеристику однородности совокупности. Совокупность считается качественно однородной, если коэффициент вариации не превышает 33%.
Результаты расчета характеристик по функциям MS Excel:
Расчет характеристик (см. табл. 4):
Размах вариации: млн. у.е./год
Среднее линейное отклонение: млн. у.е./год
Среднее квадратическое отклонение: млн. у.е./год
Дисперсия: (млн. у.е./год) 2
Таблица 4. Расчет показателей вариации
Серед. инт. | Частота | (Серед. инт.-сред.) × Част. | ABS((Серед. инт.-сред.) × Част.) | (Серед. инт.-сред.) 2 × Част. |
-1860 | ||||
-550 | ||||
Итого |
3. Характеристики формы распределения
Для характеристики однородности совокупности используют и показатели формы распределения: коэффициент асимметрии и эксцесс.
Коэффициент асимметрии, As-показатель симметричности распределения. Положительная величина показателя асимметрии указывает на правостороннюю асимметрию, отрицательная – на левостороннюю, близость нулю свидетельствует о симметричном распределении.
Способы расчета коэффициента асимметрии:
1. Коэффициент асимметрии Пирсона:
Величина As может изменяться от –1 до +1 (для одновершинных распределений). Чем ближе по модулю As к 1, тем асимметрия существеннее.
2. Показатель, основанный на определении центрального момента третьего порядка – М3:
В симметричном распределении его величина равна нулю. Для оценки существенности такого коэффициента вычисляется его средняя квадратическая ошибка:
где N - объем совокупности.
Если çAsç/sAs меньше 2, это свидетельствует о несущественном характере асимметрии.
Коэффициент эксцесса, Ex-показатель островершинности распределения. Он рассчитывается для симметричных распределений.Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. Показатель, использующий центральный момент четвертого порядка - М4:
Для нормального распределения эксцесс равен нулю. Положительный эксцесс означает, что распределение более островершинное чем нормальное; отрицательный эксцесс означает более плосковершинный характер распределения, чем у нормального Для оценки существенности такого коэффициента эксцесса вычисляется его средняя квадратическая ошибка:
где N - объем совокупности.
Если çExç/sEx меньше 2, это свидетельствует о несущественном характере эксцесса (близости распределения по характеру островершинности к нормальному).
По исходным данным характеристики формы распределения могут быть определены с помощью функций СКОС, ЭКСЦЕСС. Вызываем функцию (из категории «Статистические»):
= СКОС(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется асимметрия (выделить для первого аргумента столбец исходных значений признака).
= ЭКСЦЕСС(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется эксцесс распределения (выделить для первого аргумента столбец исходных значений признака).
Результаты расчета характеристик по функциям MS Excel:
Таблица 5. Расчет показателей формы распределения
Середина интервала | Частота | (Середина интервала -среднее) 3 × Частота |
-44686500 | ||
-1663750 | ||
Итого |
Расчет характеристик (см. табл. 5):
Так как данный ряд распределения явно несимметричен, расчет эксцесса не производится.
Понятие и типы (дискретные и непрерывные величины) случайной величины. Вычисление центрального момента в Microsoft Excel. Числовые характеристики, характеризующие рассеивание случайной величины. Основные способы нахождения асимметрии и эксцесса.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | лабораторная работа |
Язык | русский |
Дата добавления | 18.04.2013 |
Размер файла | 31,4 K |
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
ОПРЕДЕЛЕНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ПО ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ В ТАБЛИЧНОМ ПРОЦЕССОРЕ EXCEL
1. Теоретические основы
На практике очень часто приходится иметь дело с различными опытами. Качественная характеристика результата опыта есть событие. А количественной характеристикой случайного результата опыта является случайная величина. Сл у чайной величиной называется величина, которая в результате опыта может принять то или иное (но только одно) значение, причем до опыта неизвестно, какое именно.
Среди случайных величин можно выделить два основных типа: дискретные величины и непрерывные величины. Дискретной случайной величиной называется величина, число возможных значений которой либо конечное, либо бесконечное счетное множество. Случайной непрерывной величиной называется такая величина, возможные значения которой непрерывно заполняют некоторый интервал (конечный или бесконечный) числовой оси. Очевидно, что возможных значений случайной непрерывной величины бесконечно.
На практике в психологии чаще всего используют именно дискретную случайную величину. Приведем пример: предположим, исследуется уровень интеллекта в какой-либо группе испытуемых. В результате эксперимента каждый из обследованных выдаст некое значение. Мы не можем заранее предсказать, какова будет величина этого значения: 70, 100, 130 баллов и т.п., - и потому наша величина СЛУЧАЙНА. Даже если людей в группе столько, что обязательно отыщутся те, у кого будет 71 балл, 72, 73, 74… и так далее - до 127, 128, 129, 130, то все равно не может быть человека, набравшего 129,5 балла или 71,5 балла - и потому наша случайная величина ДИСКРЕТНА.
Значения наблюдаемых в практике случайных величин более или менее колеблются около среднего значения. Это явление называется рассеянием величины около ее среднего значения. Числовые характеристики, характеризующие рассеяние случайной величины, называются характеристиками рассеивания, основными из которых являются дисперсия и средне квадратичное отклонение.
Дисперсией случайной величины называется математическое ожидание квадрата отклонения величины от ее математического ожидания
Соответственно, для дискретной случайной величины дисперсия выражается суммой
где pi - вероятность случайной величины.
Средним квадратическим отклонением случайной величины называется корень квадратный из ее дисперсии:
Для чего вообще необходимы понятия дисперсии и среднеквадратического отклонения?
Во многих экспериментах необходимо знать, как в среднем характеризуется данная исследуемая величина, какое, в среднем, она может принять значение. (Допустим, надо определить, каков, в среднем, показатель интеллекта в той или иной группе лиц.)Пусть известно, что средний показатель интеллекта в некой группе равен такому-то числу. Что можно сказать об интеллекте группы, на основании лишь знания этого среднего показателя? Решительно ничего. Ведь неизвестно, все ли значения тесно сгруппированы вокруг среднего (все демонстрируют средний интеллект) или половина показателей очень низких, а половина - очень высоких. Может статься, что большинство демонстрируют интеллект выше среднего, но показатели одного-двух человек так низки, что «тянут» назад всю группу. В каждом из трех вариантов может быть одно и то же среднее значение.
В таком случае требуется иметь такую характеристику, которая бы говорила о том, сколь велик разброс значений вокруг среднего, или сколь далеко, как правило, от среднего отстоит любое, случайно взятое, значение. Для ответа на этот вопрос и служит такая математическая величина, как ДИСПЕРСИЯ, то есть - мера рассеяния. Что касается среднеквадратического отклонения, то оно более удобно на практике, так как сохраняет размерность исследуемой величины.
Обобщением основных числовых характеристик случайных величин является понятие моментов случайных величин. В теории вероятности различают моменты двух видов: начальные и центральные.
Начальным моментом k-го порядка случайной величины X называют математическое ожидание величины x k :
Из начальных моментов особое значение имеет момент первого порядка, который представляет собой математическое ожидание случайной величины.
Начальные моменты высших порядков используются главным образом для вычисления центральных моментов.
Центральным моментом к-го порядка случайной величины X называют математическое ожидание величины (X-M(X)) k :
Среди центральных моментов случайной величины особое значение имеет центральный момент второго порядка, который представляет собой дисперсию случайной величины.
На практике, кроме математического ожидания, применяются и другие характеристики положения случайной величины, в частности мода и медиана. Модой М0 случайной дискретной величины называется ее наиболее вероятное значение.
Медианой МD случайной величины Х называется такое ее значение, относительно которого равновероятно получение большего или меньшего значения случайной величины, т.е.
Третий центральный момент служит характеристикой асимметрии («скошенности») распределения. Так как третий центральный момент имеет размерность куба случайной величины, то обычно рассматривают безразмерную величину - отношение 3 к среднему квадратическому отклонению в третьей степени
величина носит название коэффициента асимметрии.
Четвертый центральный момент служит для характеристик островершинности или плосковершинности распределения. Эти свойства распределения описываются с помощью так называемого эксцесса. Эксцессом случайной величины Х называется величина
2. Задания на лабораторную работу
Экспериментально определены скорости, с которыми люди записывают цифры арабского алфавита:
F(Me)=0.5
Модой для дискретной случайной величины называют такое значение, которое наиболее вероятно.
Модой для непрерывной случайной величины называют наибольшее значение (точка локального максимума) плотности вероятности.
Мода и медиана на графике
Начальным моментом порядка k случайной величины X называется математическое ожидание величины Х k и определяется равенством:
Формула начального момента для непрерывной случайной величины:
Формула начального момента для дискретной случайной величины:
Центральным моментом порядка k случайной величины X называется математическое ожидание величины (X-M(Х)) k и определяется равенством:
Формула центрального момента для непрерывной случайной величины:
Формула центрального момента для дискретной случайной величины:
Центральный момент первого порядка случайной величины X равен нулю, то есть
Центральный момент второго порядка случайной величины X равен дисперсии, то есть
Центральный момент третьего порядка случайной величины X характеризует асимметрию и определяется равенством:
Центральный момент четвёртого порядка случайной величины X характеризует эксцесс и равен:
Асимметрия характеризует меру сдвига распределения случайной величины в левую или правую часть и находится по формуле:
График значений коэффициента эксцесса
Квантилем уровня p называют такое значение случайной величины xp которое удовлетворяет условие:
Насколько публикация полезна?
Нажмите на звезду, чтобы оценить!
Средняя оценка 4.6 / 5. Количество оценок: 11
Оценок пока нет. Поставьте оценку первым.
2 комментария
ошибка в формуле второго центрального момента
Спасибо большое! Исправили индекс в формуле второго центрального момента.
Момент степени k:
Центральный момент степени k:
Среднее значение
Кол-во посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Количество наблюдений | 114 | 115 | 52 | 52 | 24 | 13 | 30 |
Таблица 1. Количество посетителей в час |
Чтобы найти среднее значение всех результатов необходимо сложить всё вместе и разделить на количество результатов:
μ = (114 • 0 + 115 • 1 + 52 • 2 + 52 • 3 + 24 • 4 + 13 • 5 + 30 • 6) / 400 = 716/400 = 1.79
То же самое мы можем проделать используя формулу 2:
μ = M(X) = Σ(Xi•pi) = 0 • 0.29 + 1 • 0.29 + 2 • 0.13 + 3 • 0.13 + 4 • 0.06 + 5 • 0.03 + 6 • 0.08 = 1.79 Момент первой степени, формула (5)
Собственно, формула 2 представляет собой среднее арифметическое всех значений
Итог: в среднем, 1.79 посетителя в час
Количество посетителей | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
Вероятность (%) | 28.5 | 28.8 | 13 | 13 | 6 | 3.3 | 7.5 |
Таблица 2. Закон распределения количества посетителей |
Отклонение от среднего
Посмотрите на это распределение, можно предположить, что в среднем случайная величина равна 100±5, поскольку кажется, что таких значений несравнимо больше чем тех, что меньше 95 или больше 105:
График 2. График функции вероятности. Распределение ≈ 100±5
но сумма таких расстояний, а следовательно и любое производное от этого числа, будет равно нулю, поэтому в качестве меры выбрали квадрат разниц между величинами и средним значением:
σ возведена в квадрат, поскольку вместо расстояний мы взяли квадрат расстояний. σ 2 называется дисперсией. Корень из дисперсии называется средним квадратическим отклонением, или среднеквадратическим отклоненим, и его используют в качестве меры разброса:
Возвращаясь к примеру, посчитаем среднеквадратическое отклонение для графика 2:
Квантиль
График 3. Функция распределения. Медиана
График 4. Функция распределения. 4-квантиль или квартиль
График 5. Функция распределения. 0.34-квантиль
То есть, если мы говорим о дециле (10-квантиле), то это означает, что мы разбили график на 10 частей, что соответствует девяти линяям, и для каждого дециля нашли значение случайной величины.
Для дискретного распределения квантиль необходимо выбирать следующим образом: квантиль гарантирует вероятность, поэтому, если рассчитанный квантиль не совпадает с одним и значений, необходимо выбирать меньшее значение.
Построение интервалов
Двусторонний доверительный интервал
Первый квартиль
Значение квартиля Q1 находится в интервале 68,98 – 71,70, соответствующего частоте fQ1 = 150:4 = 37,5
Третий квартиль
Значение квартиля находится в интервале 68,98 – 71,70, соответствующего частоте fQ3 = (3*150):4 = 112,5
Квартили непрерывного распределения
Примечание : Подробнее о Функции распределения см. статью Функция распределения и плотность вероятности в MS EXCEL .
Если известна функция плотности вероятности p (х) , то 1-й квартиль можно найти из уравнения:
Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2 ), получим, что медиана (2-й квартиль ) вычисляется по формуле e μ или в MS EXCEL =EXP(μ). При μ=1, медиана равна 2,718.
Обратите внимание на точку Функции распределения , для которой F(х)=0,5 (см. картинку выше или файл примера , лист Квартиль-распределение) . Абсцисса этой точки равна 2,718. Это и есть значение 2-го квартиля ( медианы ), что естественно совпадает с ранее вычисленным значением по формуле e μ .
Примечание : Напомним, что интеграл от функции плотности вероятности по всей области задания случайной величины равен единице:
Поэтому, линии квартилей ( х=квартиль ) делят площадь под графиком функции плотности вероятности на 4 равные части.
Квартили в MS EXCEL
Чтобы вычислить в MS EXCEL квартили заданного распределения необходимо использовать соответствующую обратную функцию распределения .
При вычислении квартилей в MS EXCEL используются обратные функции распределения : НОРМ.СТ.ОБР() , ЛОГНОРМ.ОБР() , ХИ2.ОБР() , ГАММА.ОБР() и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье Распределения случайной величины в MS EXCEL .
Например, в MS EXCEL 1-й квартиль для логнормального распределения LnN(1;1) можно вычислить по формуле =ЛОГНОРМ.ОБР(0,25;1;1) , а 3-й квартиль для стандартного нормального распределения по формуле =НОРМ.СТ.ОБР(0,75) .
Моменты случайной величины
Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.
Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.
Статистический анализ роста доли дохода в Excel за период
Пример 2. В таблице приведены данные о доходах предпринимателя за год. Доказать, что примерно 75% значений меньше, чем третий квартиль доходов.
Вид исходной таблицы:
Определим 3-й по формуле:
Определим соотношение чисел, меньше полученного числа, к общему количеству значений по формуле:
Анализ статистики случайно сгенерированных чисел в Excel
Пример 3. Имеется диапазон случайных чисел, отсортированный в порядке возрастания. Определить соотношение суммы чисел, которые меньше 1-го квартиля, к сумме чисел, которые превышают значение 1-го квартиля.
Чтобы сгенерировать случайное число в Excel воспользуемся функцией:
После генерации отсортируем случайно сгенерированные числа по возрастанию. Вид исходной таблицы данных со случайными числами:
Формула для расчета имеет следующий вид (формула массива CTRL+SHIFT+ENTER):
Функции СУММ с вложенными функциями ЕСЛИ выполняют расчет суммы только тех чисел, которые меньше и больше соответственно значения, возвращаемого функцией для исследуемого диапазона. Из полученных значений вычисляется частное. Результат расчетов:
Общая сумма чисел исследуемого диапазона, которые меньше 1-го квартиля, составляет всего 8,57% от общей суммы чисел, которые больше 1-го квартиля.
Расчет квартилей в R и SAS
Функция quantile в R использует все девять алгоритмов расчета квантилей, в соответствии с нумерацией, предложенной Hyndman and Fan в работе 1996 г. (рис. 15; если вы не знакомы с R, рекомендую начать с Алексей Шипунов. Наглядная статистика. Используем R! ). Квантиль при i-м методе расчета:
где i – номер метода, 1 ≤ i ≤ 9, (j–m)/n ≤ p < (j–m+1)/n, хj – j-ый порядковый элемент упорядоченного ряда, n – размер выборки, γ является функцией двух параметров: j = floor(np + m) и g = np + m – j, где floor – функция возвращающая наибольшее целое, но всё еще меньшее, чем аргумент функции (аналог в Excel – ОКРВНИЗ.МАТ), m – константа, определяемая типом алгоритма расчета квантиля. Если вас интересуют подробности, обратитесь к справочной системе R.
SAS предлгает 5 методов расчета квантилей.
Расчет децилей для дискретного ряда
Определяем номер дециля по формуле: ,
Если номер дециля – целое число, то значение дециля будет равно величине элемента ряда, которое обладает накопленной частотой равной номеру дециля. Например, если номер дециля равен 20, его значение будет равно значению признака с S =20 (накопленной частотой равной 20).
Если номер дециля – нецелое число, то дециль попадает между двумя наблюдениями. Значением дециля будет сумма, состоящая из значения элемента, для которого накопленная частота равна целому значению номера дециля, и указанной части (нецелая часть номера дециля) разности между значением этого элемента и значением следующего элемента.
Например, если номер дециля равна 20,25, дециль попадает между 20-м и 21-м наблюдениями, и его значение будет равно значению 20-го наблюдения плюс 1/4 разности между значением 20-го и 21-го наблюдений.
Квантили специальных видов
Часто используются Квантили специальных видов:
В качестве примера вычислим медиану (0,5-квантиль) логнормального распределения LnN(0;1) (см. файл примера лист Медиана ).
Это можно сделать с помощью формулы =ЛОГНОРМ.ОБР(0,5; 0; 1)
Квантили стандартного нормального распределения
Необходимость в вычислении квантилей стандартного нормального распределения возникает при проверке статистических гипотез и при построении доверительных интервалов.
Примечание : Про проверку статистических гипотез см. статью Проверка статистических гипотез в MS EXCEL . Про построение доверительных интервалов см. статью Доверительные интервалы в MS EXCEL .
В данных задачах часто используется специальная терминология:
-
Нижний квантиль уровняальфа ( α percentage point) файл примера лист Квантили ).
Для α=0,05, нижний 0,05-квантиль стандартного нормального распределения равен -1,645. Вычисления в MS EXCEL можно сделать по формуле:
Действительно, для α=0,05, верхний 0,05-квантиль стандартного нормального распределения равен 1,645. Т.к. функция плотности вероятности стандартного нормального распределения является четной функцией, то вычисления в MS EXCEL верхнего квантиля можно сделать по двум формулам:
Чтобы пояснить название « верхний» квантиль , построим график плотности вероятности и функцию вероятности стандартного нормального распределения для α=0,05.
Выделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение больше верхнего 0,05-квантиля , т.е. больше значения 1,645. Эта вероятность равна 0,05.
Невыделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение между нижним квантилем уровня α /2 и верхним квантилем уровня α /2, т.е. будет между значениями -1,960 и 1,960 при α=0,05. Эта вероятность равна в нашем случае 1-(0,05/2+0,05/2)=0,95. Если Z 0 попадает в одну из выделенных областей, то нулевая гипотеза отклоняется.
Другими словами, двусторонние α-квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью α.
Квантили распределения Стьюдента
Аналогичным образом квантили вычисляются и для распределения Стьюдента . Например, вычислять верхний α/2- квантиль распределения Стьюдента с n -1 степенью свободы требуется, если проводится проверка двухсторонней гипотезы о среднем значении распределения при неизвестной дисперсии ( см. эту статью ).
Для верхних квантилей распределения Стьюдента часто используется запись t α/2,n-1 . Если такая запись встретилась в статье про проверку гипотез или про построение доверительного интервала , то это именно верхний квантиль .
Примечание : Функция плотности вероятности распределения Стьюдента , как и стандартного нормального распределения , является четной функцией.
.2X означает 2 хвоста, т.е. двусторонний квантиль .
Квантили распределения ХИ-квадрат
Вычислять квантили распределения ХИ-квадрат с n -1 степенью свободы требуется, если проводится проверка гипотезы о дисперсии нормального распределения (см. статью Проверка статистических гипотез в MS EXCEL о дисперсии нормального распределения ).
При проверке таких гипотез также используются верхние квантили. Например, при двухсторонней гипотезе требуется вычислить 2 верхних квантиля распределения ХИ 2 : χ 2 α/2,n-1 и χ 2 1- α/2,n-1 . Почему требуется вычислить два квантиля , не один, как при проверке гипотез о среднем , где используется стандартное нормальное распределение или t-распределение ?
Дело в том, что в отличие от стандартного нормального распределения и распределения Стьюдента , плотность распределения ХИ 2 не является четной (симметричной относительно оси х). У него все квантили больше 0, поэтому верхний альфа-квантиль не равен нижнему (1-альфа)-квантилю или по-другому: верхний альфа-квантиль не равен нижнему альфа-квантилю со знаком минус.
Результат равен 20,48. .ПХ означает правый хвост распределения, т.е. тот который расположен вверху на графике функции распределения .
Чтобы вычислить верхний (1-0,05/2)- квантиль при том же числе степеней свободы , т.е. χ 2 1-0,05/2,n-1 и необходимо записать формулу =ХИ2.ОБР.ПХ(1-0,05/2; 10) или =ХИ2.ОБР(0,05/2; 10)
Пусть непрерывная случайная величина Х задана функцией распределения F(X). Допустим, что все возможные значения случайной величины принадлежат отрезку [A,B].
Определение. Математическим ожиданием непрерывной случайной величины Х, возможные значения которой принадлежат отрезку [a, b], называется определенный интеграл
Если возможные значения случайной величины рассматриваются на всей числовой оси, то математическое ожидание находится по формуле:
При этом, конечно, предполагается, что несобственный интеграл сходится.
Определение. Дисперсией непрерывной случайной величины называется математическое ожидание квадрата ее отклонения.
По аналогии с дисперсией дискретной случайной величины, для практического вычисления дисперсии используется формула:
Определение. Средним квадратичным отклонением Называется квадратный корень из дисперсии.
Определение. Модой М0 дискретной случайной величины называется ее наиболее вероятное значение. Для непрерывной случайной величины мода – такое значение случайной величины, при которой плотность распределения имеет максимум.
Если многоугольник распределения для дискретной случайной величины или кривая распределения для непрерывной случайной величины имеет два или несколько максимумов, то такое распределение называется Двухмодальным или Многомодальным.
Если распределение имеет минимум, но не имеет максимума, то оно называется Антимодальным.
Определение. Медианой MD случайной величины Х называется такое ее значение, относительно которого равновероятно получение большего или меньшего значения случайной величины.
Геометрически медиана – абсцисса точки, в которой площадь, ограниченная кривой распределения делится пополам.
Отметим, что если распределение одномодальное, то мода и медиана совпадают с математическим ожиданием.
Определение. Начальным моментом Порядка K Случайной величины Х называется математическое ожидание величины ХK.
Для дискретной случайной величины: .
Для непрерывной случайной величины: .
Начальный момент первого порядка равен математическому ожиданию.
Определение. Центральным моментом Порядка K случайной величины Х называется математическое ожидание величины
Для дискретной случайной величины: .
Для непрерывной случайной величины: .
Центральный момент первого порядка всегда равен нулю, а центральный момент второго порядка равен дисперсии. Центральный момент третьего порядка характеризует асимметрию распределения.
Определение. Отношение центрального момента третьего порядка к среднему квадратическому отклонению в третьей степени называется Коэффициентом асимметрии.
Определение. Для характеристики островершинности и плосковершинности распределения используется величина, называемая Эксцессом.
Кроме рассмотренных величин используются также так называемые абсолютные моменты:
Абсолютный начальный момент: .
Абсолютный централь Ный момент: .
Абсолютный центральный момент первого порядка называется Средним арифметическим отклонением.
Пример. Для рассмоТРенного выше примера определить математическое ожидание и дисперсию случайной величины Х.
Пример. В урне 6 белых и 4 черных шара. Из нее пять раз подряд извлекают шар, причем каждый раз вынутый шар возвращают обратно и шары перемешивают. Приняв за случайную величину Х число извлеченных белых шаров, составить закон распределения этой величины, определить ее математическое ожидание и дисперсию.
Т. к. шары в каждом опыте возвращаются обратно и перемешиваются, то испытания можно считать независимыми (результат предыдущего опыта не влияет на вероятность появления или непоявления события в другом опыте).
Таким образом, вероятность появления белого шара в каждом опыте постоянна и равна
Таким образом, в результате пяти последовательных испытаний белый шар может не появиться вовсе, появиться один раз, два, три, четыре или пять раз.
Для составления закона распределения надо найти вероятности каждого из этих событий.
1) Белый шар не появился вовсе:
2) Белый шар появился один раз:
3) Белый шар появиться два раза: .
4) Белый шар появиться три раза:
5) Белый шар появиться четыре раза:
6) Белый шар появился пять раз:
Читайте также: