Как сделать эмпирическую функцию распределения
Интервальный вариационный ряд – это ряд распределения, в котором однородные группы составлены по признаку, меняющемуся непрерывно или принимающему слишком много значений.
Интервалы, \(\left.\left[a_,a_i\right.\right)\) | \(\left.\left[a_,a_1\right.\right)\) | \(\left.\left[a_,a_2\right.\right)\) | . | \(\left.\left[a_,a_k\right.\right)\) |
Частоты, \(f_i\) | \(f_1\) | \(f_2\) | . | \(f_k\) |
Здесь k - число интервалов, на которые разбивается ряд.
Размах вариации – это длина интервала, в пределах которой изменяется исследуемый признак: $$ F=x_
Правило Стерджеса
Эмпирическое правило определения оптимального количества интервалов k, на которые следует разбить ряд из N чисел: $$ k=1+\lfloor\log_2 N\rfloor $$ или, через десятичный логарифм: $$ k=1+\lfloor 3,322\cdot\lg N\rfloor $$
Скобка \(\lfloor\ \rfloor\) означает целую часть (округление вниз до целого числа).
Шаг интервального ряда – это отношение размаха вариации к количеству интервалов, округленное вверх до определенной точности: $$ h=\left\lceil\frac Rk\right\rceil $$
Скобка \(\lceil\ \rceil\) означает округление вверх, в данном случае не обязательно до целого числа.
Алгоритм построения интервального ряда
На входе: все значения признака \(\left\,\ j=\overline\)
Шаг 1. Найти размах вариации \(R=x_-x_\)
Шаг 2. Найти оптимальное количество интервалов \(k=1+\lfloor\log_2 N\rfloor\)
Шаг 3. Найти шаг интервального ряда \(h=\left\lceil\frac\right\rceil\)
Шаг 4. Найти узлы ряда: $$ a_0=x_,\ \ a_i=1_0+ih,\ \ i=\overline $$ Шаг 5. Найти частоты \(f_i\) – число попаданий значений признака в каждый из интервалов \(\left.\left[a_,a_i\right.\right)\).
На выходе: интервальный ряд с интервалами \(\left.\left[a_,a_i\right.\right)\) и частотами \(f_i,\ i=\overline\)
Заметим, что поскольку шаг h находится с округлением вверх, последний узел \(a_k\geq x_\).
Например:
Проведено 100 измерений роста учеников старших классов.
Минимальный рост составляет 142 см, максимальный – 197 см.
Найдем узлы для построения соответствующего интервального ряда.
По условию: \(N=100,\ x_=142\ см,\ x_=197\ см\).
Размах вариации: \(R=197-142=55\) (см)
Оптимальное число интервалов: \(k=1+\lfloor 3,322\cdot\lg 100\rfloor=1+\lfloor 6,644\rfloor=1+6=7\)
Шаг интервального ряда: \(h=\lceil\frac\rceil=\lceil 7,85\rceil=8\) (см)
Получаем узлы ряда: $$ a_0=x_=142,\ a_i=142+i\cdot 8,\ i=\overline $$
\(\left.\left[a_,a_i\right.\right)\) cм | \(\left.\left[142;150\right.\right)\) | \(\left.\left[150;158\right.\right)\) | \(\left.\left[158;166\right.\right)\) | \(\left.\left[166;174\right.\right)\) | \(\left.\left[174;182\right.\right)\) | \(\left.\left[182;190\right.\right)\) | \(\left[190;198\right]\) |
п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
Относительная частота интервала \(\left.\left[a_
Гистограмма относительных частот интервального ряда – это фигура, состоящая из прямоугольников, ширина которых равна шагу ряда, а высота – относительным частотам каждого из интервалов.
Площадь гистограммы равна 1 (с точностью до округлений), и она является эмпирическим законом распределения исследуемого признака.
Накопленные относительные частоты – это суммы: $$ S_1=w_1,\ S_i=S_
Кумулята – это ломаная, которая соединяет точки \((x_i,S_i)\), где \(x_i\) - середины интервалов.
Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
\(\left.\left[a_,a_i\right.\right)\) cм | \(\left.\left[142;150\right.\right)\) | \(\left.\left[150;158\right.\right)\) | \(\left.\left[158;166\right.\right)\) | \(\left.\left[166;174\right.\right)\) | \(\left.\left[174;182\right.\right)\) | \(\left.\left[182;190\right.\right)\) | \(\left[190;198\right]\) |
\(f_i\) | 4 | 7 | 11 | 34 | 33 | 8 | 3 |
Найдем середины интервалов, относительные частоты и накопленные относительные частоты:
\(x_i\) | 146 | 154 | 162 | 170 | 178 | 186 | 194 |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 |
\(S_i\) | 0,04 | 0,11 | 0,22 | 0,56 | 0,89 | 0,97 | 1 |
Построим гистограмму и полигон:
Построим кумуляту и эмпирическую функцию распределения:
Эмпирическая функция распределения (относительно середин интервалов): $$ F(x)= \begin 0,\ x\leq 146\\ 0,04,\ 146\lt x\leq 154\\ 0,11,\ 154\lt x\leq 162\\ 0,22,\ 162\lt x\leq 170\\ 0,56,\ 170\lt x\leq 178\\ 0,89,\ 178\lt x\leq 186\\ 0,97,\ 186\lt x\leq 194\\ 1,\ x\gt 194 \end $$
п.3. Выборочная средняя, мода и медиана. Симметрия ряда
Выборочная средняя интервального вариационного ряда определяется как средняя взвешенная по частотам: $$ X_
Или, через относительные частоты: $$ X_
Модальным интервалом называют интервал с максимальной частотой: $$ f_m=max f_i $$ Мода интервального вариационного ряда определяется по формуле: $$ M_o=x_o+\frac
\(h\) – шаг интервального ряда;
\(x_o\) - нижняя граница модального интервала;
\(f_m,f_,f_\) - соответственно, частоты модального интервала, интервала слева от модального и интервала справа.
Медианным интервалом называют первый интервал слева, на котором кумулята превысила значение 0,5. Медиана интервального вариационного ряда определяется по формуле: $$ M_e=x_o+\frac<0,5-S_>>h $$ где
\(h\) – шаг интервального ряда;
\(x_o\) - нижняя граница медианного интервала;
\(S_\) накопленная относительная частота для интервала слева от медианного;
\(w_\) относительная частота медианного интервала.0,5-S_
Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).
Например:
Для распределения учеников по росту получаем:
\(x_i\) | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
\(x_iw_i\) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
$$ X_=\sum_^k x_iw_i=171,68\approx 171,7\ \text $$ На гистограмме (или полигоне) относительных частот максимальная частота приходится на 4й интервал [166;174). Это модальный интервал.
Данные для расчета моды: \begin x_o=166,\ f_m=34,\ f_=11,\ f_=33,\ h=8\\ M_o=x_o+\frac
Данные для расчета медианы: \begin x_o=166,\ w_m=0,34,\ S_=0,22,\ h=8\\ \\ M_e=x_o+\frac<0,5-S_>h=166+\frac\cdot 8\approx 172,6\ \text \end \begin \\ X_=171,7;\ M_o=173,7;\ M_e=172,6\\ X_\lt M_e\lt M_o \end Ряд асимметричный с левосторонней асимметрией.
При этом \(\frac<|M_o-X_|><|M_e-X_|>=\frac\approx 2,2\lt 3\), т.е. распределение умеренно асимметрично.
п.4. Выборочная дисперсия и СКО
Выборочная дисперсия интервального вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: \begin D=\frac1N\sum_^k(x_i-X_)^2 f_i=\frac1N\sum_^k x_i^2 f_i-X_^2 \end где \(x_i\) - середины интервалов: \(x_i=\frac+a_i>,\ i=\overline\).
Или, через относительные частоты: $$ D=\sum_^k(x_i-X_)^2 w_i=\sum_^k x_i^2 w_i-X_^2 $$
Выборочное среднее квадратичное отклонение (СКО) определяется как корень квадратный из выборочной дисперсии: $$ \sigma=\sqrt
Например:
Для распределения учеников по росту получаем:
$x_i$ | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
\(x_iw_i\) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
\(x_i^2w_i\) - результат | 852,64 | 1660,12 | 2886,84 | 9826 | 10455,72 | 2767,68 | 1129,08 | 29578,08 |
п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
Исправленная выборочная дисперсия интервального вариационного ряда определяется как: \begin S^2=\fracD \end
Стандартное отклонение выборки определяется как корень квадратный из исправленной выборочной дисперсии: $$ s=\sqrt $$
Коэффициент вариации это отношение стандартного отклонения выборки к выборочной средней, выраженное в процентах: $$ V=\frac>\cdot 100\text $$
Например:
Для распределения учеников по росту получаем: \begin S^2=\frac\cdot 104,1\approx 105,1\\ s\approx 10,3 \end Коэффициент вариации: $$ V=\frac\cdot 100\text\approx 6,0\text\lt 33\text $$ Выборка однородна. Найденное значение среднего роста \(X_\)=171,7 см можно распространить на всю генеральную совокупность (старшеклассников из других школ).
п.6. Алгоритм исследования интервального вариационного ряда
На входе: все значения признака \(\left\,\ j=\overline\)
Шаг 1. Построить интервальный ряд с интервалами \(\left.\right[a_,\ a_i\left.\right)\) и частотами \(f_i,\ i=\overline\) (см. алгоритм выше).
Шаг 2. Составить расчетную таблицу. Найти \(x_i,w_i,S_i,x_iw_i,x_i^2w_i\)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.
п.7. Примеры
Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.
\(\left.\left[a_,a_i\right.\right)\) лет | \(\left.\left[18;22\right.\right)\) | \(\left.\left[22;26\right.\right)\) | \(\left.\left[26;30\right.\right)\) | \(\left.\left[30;34\right.\right)\) | \(\left.\left[34;38\right.\right)\) |
Считаем частоты для каждого интервала. Получаем интервальный ряд:
\(\left.\left[a_,a_i\right.\right)\) лет | \(\left.\left[18;22\right.\right)\) | \(\left.\left[22;26\right.\right)\) | \(\left.\left[26;30\right.\right)\) | \(\left.\left[30;34\right.\right)\) | \(\left.\left[34;38\right.\right)\) |
\(f_i\) | 1 | 7 | 12 | 6 | 4 |
2) Составляем расчетную таблицу:
\(x_i\) | 20 | 24 | 28 | 32 | 36 | ∑ |
\(f_i\) | 1 | 7 | 12 | 6 | 4 | 30 |
\(w_i\) | 0,033 | 0,233 | 0,4 | 0,2 | 0,133 | 1 |
\(S_i\) | 0,033 | 0,267 | 0,667 | 0,867 | 1 | - |
\(x_iw_i\) | 0,667 | 5,6 | 11,2 | 6,4 | 4,8 | 28,67 |
\(x_i^2w_i\) | 13,333 | 134,4 | 313,6 | 204,8 | 172,8 | 838,93 |
3) Строим полигон и кумуляту
Эмпирическая функция распределения: $$ F(x)= \begin 0,\ x\leq 20\\ 0,033,\ 20\lt x\leq 24\\ 0,267,\ 24\lt x\leq 28\\ 0,667,\ 28\lt x\leq 32\\ 0,867,\ 32\lt x\leq 36\\ 1,\ x\gt 36 \end $$ 4) Находим выборочную среднюю, моду и медиану $$ X_=\sum_^k x_iw_i\approx 28,7\ \text $$ На полигоне модальным является 3й интервал (самая высокая точка).
Данные для расчета моды: \begin x_0=26,\ f_m=12,\ f_=7,\ f_=6,\ h=4\\ M_o=x_o+\frac
На кумуляте медианным является 3й интервал (преодолевает уровень 0,5).
Данные для расчета медианы: \begin x_0=26,\ w_m=0,4,\ S_=0,267,\ h=4\\ M_e=x_o+\frac<0,5-S_>>h=26+\frac\cdot 4\approx 28,3\ \text \end Получаем: \begin X_=28,7;\ M_o=27,8;\ M_e=28,6\\ X_\gt M_e\gt M_0 \end Ряд асимметричный с правосторонней асимметрией.
При этом \(\frac<|M_o-X_|><|M_e-X_|> =\frac=9\gt 3\), т.е. распределение сильно асимметрично.
5) Находим выборочную дисперсию и СКО: \begin D=\sum_^k x_i^2w_i-X_^2=838,93-28,7^2\approx 17,2\\ \sigma=\sqrt\approx 4,1 \end
6) Исправленная выборочная дисперсия: $$ S^2=\fracD=\frac\cdot 17,2\approx 17,7 $$ Стандартное отклонение \(s=\sqrt\approx 4,2\)
Коэффициент вариации: \(V=\frac\cdot 100\text\approx 14,7\text\lt 33\text\)
Выборка однородна. Найденное значение среднего возраста \(X_=28,7\) лет можно распространить на всю генеральную совокупность (пользователей коворкинга).
Эмпирическая функция распределения имеет вид
Построим график кусочно-постоянной эмпирической функции распределения
таким образом, по данным выборки можно приближенно построить функцию для неизвестной функции выборки.
2 комментария
Построить эмпирическое распределение результатов тестирования в баллах для следующей выборки: 69, 85, 78, 85, 83, 81, 95, 88, 97, 92, 74, 83, 89, 77, 93.
В ячейку А1 введите слова Результаты, в диапазон А2:А16 – результаты тестирования.
Выберите ширину интервала 5 баллов. Тогда при крайних результатах 69 и 97 баллов, получится 7 интервалов. В ячейку С1 введите название интервалов Границы. В диапазон С2:С8 введите граничные значения интервалов: 70, 75, 80, 85, 90, 95, 100.
Введите заголовки создаваемой таблицы: в ячейку D1 – Абсолютные частоты, в ячейку Е1 – Относительные частоты, в F1 – Накопленные частоты.
Заполните столбец абсолютных частот. Для этого выделите для них блок ячеек D2:D8, вызовите Мастер функций, категория – Статистические, функция – Частота, в поле Массив данных введите диапазон данных тестирования А2:А16, в поле Массив интервалов введите диапазон интервалов С2:С8, нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце D2:D8 появится массив абсолютных частот.
В ячейке D9 найдите общее количество результатов тестирования, с помощью Автосумма.
Заполните столбец относительных частот. В ячейку Е2 введите формулу =$D2/$D$9 .
Протягиванием скопируйте полученное значение в диапазон Е3:Е8. Получим массив относительных частот.
Заполните столбец накопленных частот. В ячейку F2 скопируйте значение относительной частоты из ячейки Е2. В ячейку F3 введите формулу =F2+E3. Протягиванием скопируйте полученное значение в диапазон F4:F8. Получим массив накопленных частот.
В результате получим таблицу, представленную на рисунке 1.
Пусть Nх — число наблюдений, при которых значение признака Х меньше Х. При объеме выборки, равном П, относительная частота события Х XK.
Сама же функция F*(X) служит для оценки теоретической функции распределения F(X) генеральной совокупности.
Пример 3. Построить эмпирическую функцию по заданному распределению выборки:
Решение. Находим объем выборки: П = 10 + 15 + 25 = 50. Наименьшая варианта равна 2, поэтому F*(X) = 0 при Х ≤ 2. Значение Х 6. Напишем формулу искомой эмпирической функции:
Функция Fn(x) обладает следующими свойствами:
- 1) значения эмпирической функции принадлежат отрезку [0,1];
- 2) F„(х) - неубывающая функция;
- 3) если х, - наименьшая варианта, то7 г „(х) = 0 прих хк.
Эмпирическая функция распределения F„(x) обладает всеми свойствами обычной функции распределения (см. гл. 5).
В отличие от эмпирической функции распределения выборки функцию распределения F(x) генеральной совокупности называют теоретической функцией распределения. Различие между ними состоит в том, что теоретическая функция распределения F(x) определяет вероятность события X хк и
еслих, частот числа суток дежурства медицинского персонала_
Решение. По условию задачи распределение выборки задано в форме табл. 7.2. В соответствии с формулой (7.11) имеем:
Пусть известно статистическое распределение частот количественного признака Х. Введем обозначения: nх - число наблюдений, при которых наблюдалось значение признака меньшее x1, n – общее число наблюдений (объем выборки). Ясно, что относительная частота события Х х/n. Если х будет изменяться, то, вообще говоря, будет, меняться и относительная частота, т.е. относительная частота nх/n есть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.
Эмпирической функцией распределения (функцией распределения выборки) называют функцию F*(x), определяющую для каждого значения х относительную частоту события Х
где nх – число вариант, меньшее х, n – объем выборки
Таким образом, для того, чтобы найти, например F*(x2), надо число вариант, меньшее x2, разделить на объем выборки n: F*(x2)=nх2/n
В отличие от эмпирической функции распределения выборки, интегральную функцию F(x) распределения генеральной совокупности называют теоретической функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(x) определяет вероятность события Х хk.
Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.
Пример 5. Построить эмпирическую функцию по данному распределению выборки:
Варианты | xi | 2 | 6 | 10 |
Частоты | ni | 12 | 18 | 30 |
Решение: Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, следовательно F*(x)=0 при x≤2. Значение х 10.
Искомая эмпирическая функция:
Читайте также: