Тест колмогорова смирнова для двух выборок excel
Управление акциями на российском фондовом рынке, подвержено высокому риску. Что бы эффективно торговать, необходимо понимать какие методы необходимо использовать для торговли.
По крайней мере, необходимо понять, что не надо использовать. В основе многих методов управления акциями либо портфелем лежит ключевая гипотеза об «эффективности рынка», которая утверждает, что на рынке существует большое количество участников, цены на акции отражают всю имеющуюся информацию, что доходности активов имеют нормальное (Гауссово) распределение. На предположении о нормальности распределения доходностей, строится множество различных методов управления активами: модель Г. Марковица, модель У. Шарпа, модель оценки уровня риска Var и Shortfall и др.
Для проверки нормальности распределения доходностей актива и дальнейшего корректного применения вышеуказанных методов, рассчитаем критерий Колмогорова Смирнова. Этот критерий схож с критерием Пирсона, но имеют другой алгоритм расчета, и применяется для подтверждения гипотезы распределения. Итак, рассчитаем критерий Колмогорова Смирнова для выбранной акции Роснефти.
Составим таблицу из эмпирических частот доходностей акции и теоретических частот. Для получения эмпирических частот рассчитаем дневные доходности акции за период с 26 мая 2009 года по 26 мая 2010 года.
(1)
Далее, для расчета эмпирической частоты доходности акции Роснефть, необходимо рассчитать следующие показатели:
1) Общее количество значений доходности. (N=250)
2) Максимальная доходность за период.(MAX)
3) Минимальная доходность за период.(MIN)
4) Среднеквадратическое отклонение доходностей за период.(SKO)
5) Математическое ожидание доходностей за период.(MO)
6) Размах вариации доходностей.(R)
7) Интервал группировки (Int)
8) Количество интервалов группировки, изменения доходность, возьмем 100
Итак, рассчитаем значения этих показателей в Excel.
Максимальная доходность за период =МАКС(D3:D251)
Минимальная доходность за период =МИН(D3:D251)
Стандартное отклонение доходностей =СТАНДОТКЛОН(D4:D251)
Математическое ожидание доходностей =СРЗНАЧ(D3:D251)
Размах вариаций доходности =G2-H2
Интервал изенения =K2/100
В итоге полученные данные занесем в таблицу:
Следующий этап заключается в построении эмпирических частот для ежедневных доходностей акции Роснефти. Зададим 100 интервалов изменения доходности, и начиная с минимальной доходности прибавляем интервал изменения доходности (Int). В итоге получается следующая таблица: Интервал =G7+$L$2.
После рассчитаем частоту попадания доходностей в эти интервалы. Для этого выделим сначала область H6:H105 и введем формулу =ЧАСТОТА(D3:D251;G6:G105) и нажмем Ctrl+Shift+Enter для группировки. В итоге получится следующая таблица. Для проверки сумма всех частот должна быть равна количеству значений доходности, то есть 250. Получились эмпирические значения частот.
Сейчас рассчитаем теоретические значения частот. Для этого рассчитаем середины созданных интервалов и рассчитаем частоты для нормального закона распределения доходностей.
Расчет середины интервала происходит по формуле:
Середина интервала =G6+$L$2/2
Теоретическое значение частоты для этого интервала (по нормальному закону распределения) рассчитывается по формуле:
Теоретическое значение распределения =НОРМРАСП(I6;$J$2;$I$2;ЛОЖЬ)*$L$2
Теоретическое значение частоты рассчитывается перемножением значения нормального распределения для интервала и количества всех значений доходности (N).
Теоретическое значение частоты=J6*$F$2
Для проверки теоретических частот сума диапазона К7:К106 должна равняться, количеству ежедневных доходностей акции, т.е. 250. В итоге получается следующая таблица частот распределения доходностей акции экспериментальных и теоретических.
Для визуального просмотра можно построить гистограмму распределения эмпирических и теоретических частот. Что показано на рисунке ниже.
Итак, сейчас приступим к расчету критерия Колмогорова Смирнова, для проверки закона распределения доходностей акции Роснефть на нормальное распределение. Для этого на новом листе , построим таблицу, состоящую из эмпирических и теоретических частот. Таблица примет следующий вид:
Следующим этапом будет необходимо построить таблицу накопленных эмпирических и теоретических частот. Для построения накопленных частот необходимо расположить эмпирические и теоретические частоты в порядке возрастания (от минимального к максимальному).
Так же рассчитаем критические значения критерия Колмогорова – Смирнова для этого воспользуемся следующей таблицей. Так как объем выборки превышает 100, в нашем случае объем выборки равен 250, то воспользуемся последним условием.
Занесем данные в таблицу. Рассчитав формулы для ячеек.
Максимальная разность упорядоченной эмпирической и теоретической частоты =МАКС(G2:G101).
Критерий Колмогорова- Смирнова =I3/100.
Критический критерий Колмогорова – Смирнова
= 1.36/КОРЕНЬ(250) и
=1.63/КОРЕНЬ(250).
После этого построим «ось значимости», на которой отмечаем Dэмп и Dкр.
Dэмп = 0.3519
Dкр. =0.086 и 0.10309
Так как критерий Колмогорова – Смирнова попадает в зону значимости, следовательно, эмпирическое распределение доходностей акции Роснефти на высоком уровне отличается от теоретического распределения (нормального распределения доходностей).
Вывод
Использования критерия Колмогорова – Смирнова позволяет определить подчинятся ли распределение доходностей актива нормальному закону распределения. Если доходность актив не подчиняется нормальному закону распределения, то применение к такому активу существующие финансовые методы и модели, такие как модель Г. Марковица, модель У. Шарпа ,Var и другие некорректно и ведет к увеличению риска.
В статистических данных , то тест Колмогорова-Смирнова ( тест KS или тест KS ) представляет собой непараметрический критерий равенства непрерывной (или прерывистыми, см раздел 2.2 ), одномерные распределения вероятностей , которые могут быть использованы для сравнения образца с эталонное распределение вероятностей (тест K – S для одной выборки) или для сравнения двух выборок (тест K – S для двух выборок). Он назван в честь Андрея Колмогорова и Николая Смирнова .
Статистика Колмогорова – Смирнова количественно определяет расстояние между эмпирической функцией распределения выборки и кумулятивной функцией распределения эталонного распределения или между эмпирическими функциями распределения двух выборок. Распределение нуля этой статистики вычисляются по нулевой гипотезе , что образец взят из эталонного распределения (в случае , если один-образце) или , что образцы взяты из того же распределения (в двух-образце случае). В случае одной выборки распределение, рассматриваемое при нулевой гипотезе, может быть непрерывным (см. Раздел 2 ), чисто дискретным или смешанным (см. Раздел 2.2 ). В случае двух выборок (см. Раздел 3 ) распределение, рассматриваемое при нулевой гипотезе, является непрерывным распределением, но в остальном не ограничено. Тем не менее, испытание на двух образцах также может быть выполнено в более общих условиях, которые учитывают неоднородность, неоднородность и зависимость между образцами.
Двухвыборочный тест K – S является одним из наиболее полезных и общих непараметрических методов для сравнения двух выборок, поскольку он чувствителен к различиям как в расположении, так и в форме эмпирических кумулятивных функций распределения двух выборок.
Тест Колмогорова-Смирнова может быть изменен , чтобы служить в качестве благости пригонки теста. В частном случае проверки нормальности распределения выборки стандартизируются и сравниваются со стандартным нормальным распределением. Это эквивалентно установке среднего и дисперсии эталонного распределения, равных оценкам выборки, и известно, что их использование для определения конкретного эталонного распределения изменяет нулевое распределение тестовой статистики (см. Тест с оцененными параметрами ). Различные исследования показали, что даже в этой исправленной форме тест менее эффективен для проверки нормальности, чем тест Шапиро-Уилка или тест Андерсона-Дарлинга . Однако у этих других тестов есть свои недостатки. Например, известно, что критерий Шапиро-Уилка не работает для образцов с множеством идентичных значений.
СОДЕРЖАНИЕ
Статистика Колмогорова – Смирнова
Статистика Колмогорова – Смирнова для данной кумулятивной функции распределения F ( x ) равна
D п знак равно Как дела Икс | F п ( Икс ) - F ( Икс ) | = \ sup _ | F_ (x) -F (x) |>
где sup x - верхняя грань множества расстояний. Интуитивно, статистика берет наибольшую абсолютную разницу между двумя функциями распределения по всем значениям x .
По теореме Гливенко – Кантелли , если выборка происходит из распределения F ( x ), то D n почти наверняка сходится к 0 в пределе, когда уходит на бесконечность. Колмогоров усилил этот результат, эффективно указав скорость этой сходимости (см. Распределение Колмогорова ). Теорема Донскера дает еще более сильный результат. п
На практике статистика требует относительно большого количества точек данных (по сравнению с другими критериями согласия, такими как статистика теста Андерсона – Дарлинга ), чтобы правильно отклонить нулевую гипотезу.
Колмогоровское распределение
Распределение Колмогорова - это распределение случайной величины
которая также может быть выражена тета-функцией Якоби . И форма статистики критерия Колмогорова – Смирнова, и ее асимптотическое распределение при нулевой гипотезе были опубликованы Андреем Колмогоровым , а таблица распределения была опубликована Николаем Смирновым . Доступны рекуррентные соотношения для распределения тестовой статистики в конечных выборках. ϑ 01 ( z знак равно 0 ; τ знак равно 2 я Икс 2 / π ) (z = 0; \ tau = 2ix ^ / \ pi)>
При нулевой гипотезе о том, что выборка происходит из гипотетического распределения F ( x ),
в распределении , где B ( t ) - броуновский мост . Если F непрерывен , то при нулевой гипотезе сходится к распределению Колмогорова, которое не зависит от F . Этот результат может быть также известен как теорема Колмогорова. п D п > D_ >
Точность этого предела как приближения к точному cdf для конечного момента не очень впечатляет: даже когда соответствующая максимальная ошибка составляет около ; эта ошибка увеличивается до « когда» и до совершенно неприемлемого « когда» . Однако очень простой способ заменить на K п п знак равно 1000 0,9 % 2,6 % п знак равно 100 7 % п знак равно 10 Икс
в аргумент функции Якоби тета уменьшает эти ошибки в , и , соответственно; такая точность обычно считается более чем достаточной для всех практических приложений. 0,003 % 0,027 % 0,27 %
Благость-оф-приступе тест или тест Колмогорова-Смирнова может быть построена с использованием критических значений распределения Колмогорова. Этот тест асимптотически верен, когда . Он отклоняет нулевую гипотезу на уровне, если п → ∞ α
где K α находится из
Асимптотическая мощность этого теста равна 1.
Быстрые и точные алгоритмы вычисления cdf или его дополнения для произвольных и доступны по адресу: Pr ( D п ≤ Икс ) (D_ \ leq x)> п Икс
- и для непрерывных нулевых распределений с кодом на C и Java можно найти в.
- для чисто дискретного, смешанного или непрерывного нулевого распределения, реализованного в пакете KSgeneral проекта R для статистических вычислений , который для данной выборки также вычисляет статистику теста KS и ее p-значение. Альтернативная реализация C ++ доступна по адресу.
Тест с расчетными параметрами
Если форма или параметры F ( x ) определяются из данных X i, критические значения, определенные таким образом, недействительны. В таких случаях может потребоваться Монте-Карло или другие методы, но для некоторых случаев подготовлены таблицы. Подробная информация о необходимых изменениях в статистике теста и критических значениях нормального распределения и экспоненциального распределения была опубликована, а более поздние публикации также включают распределение Гамбеля . Тест Лиллиэфорса представляет собой частный случай этого для нормального распределения. Преобразование логарифма может помочь избежать случаев, когда данные теста Колмогорова не соответствуют предположению о том, что они получены из нормального распределения.
При использовании оценочных параметров возникает вопрос, какой метод оценки следует использовать. Обычно это метод максимального правдоподобия, но, например, для нормального распределения MLE имеет большую ошибку смещения сигмы. Использование подгонки с моментом или минимизация KS вместо этого имеет большое влияние на критические значения, а также некоторое влияние на мощность теста. Если нам нужно решить для данных Student-T с df = 2 с помощью теста KS, могут ли данные быть нормальными или нет, тогда оценка ML на основе H 0 (данные нормальные, поэтому использование стандартного отклонения для масштаба) даст много большее расстояние KS, чем посадка с минимальным KS. В этом случае мы должны отклонить H 0 , что часто имеет место с MLE, потому что стандартное отклонение выборки может быть очень большим для данных T-2, но с минимизацией KS мы можем получить слишком низкий KS, чтобы отклонить H 0 . В случае Стьюдента-T модифицированный тест KS с оценкой KS вместо MLE действительно немного ухудшает тест KS. Однако в других случаях такой модифицированный тест KS дает немного лучшую тестовую мощность.
Дискретное и смешанное нулевое распределение
В предположении, что это неубывающее и непрерывное вправо предположение со счетным (возможно, бесконечным) числом прыжков, статистика теста KS может быть выражена как: F ( Икс )
D п знак равно Как дела Икс | F п ( Икс ) - F ( Икс ) | знак равно Как дела 0 ≤ т ≤ 1 | F п ( F - 1 ( т ) ) - F ( F - 1 ( т ) ) | . = \ sup _ | F_ (x) -F (x) | = \ sup _ | F_ (F ^ < -1>(t)) - F (F ^ (t)) |.>
Из непрерывности справа следует, что и, следовательно, распределение зависит от нулевого распределения , т. Е. Больше не является свободным от распределения, как в непрерывном случае. Таким образом, быстрый и точный метод был разработан , чтобы вычислить точное и асимптотическое распределение , когда чисто дискретный или смешанный, реализованный в C ++ и в пакете KSgeneral на языке R . Функции , и вычисляют также тестовую статистику КС и р-значения для чисто дискретных, смешанных или непрерывных распределений нулевых и произвольных размеров выборки. Тест KS и его p-значения для дискретных нулевых распределений и малых размеров выборки также вычисляются как часть пакета dgof языка R. Основные статистические пакеты, среди которых SAS и Stata реализуют тест KS в предположении, что он является непрерывным, что является более консервативным, если нулевое распределение на самом деле не является непрерывным (см. Ресурсы). F ( Икс ) F ( F - 1 ( т ) ) ≥ т (т)) \ geq t> F - 1 ( F ( Икс ) ) ≤ Икс (F (x)) \ leq x> D п > F ( Икс ) D п > F ( Икс ) disc_ks_test() mixed_ks_test() cont_ks_test() PROC NPAR1WAY ksmirnov F ( Икс )
Двухвыборочный критерий Колмогорова – Смирнова.
Тест Колмогорова – Смирнова также можно использовать для проверки того, различаются ли два лежащих в основе одномерных распределения вероятностей. В этом случае статистика Колмогорова – Смирнова равна
D п , м знак равно Как дела Икс | F 1 , п ( Икс ) - F 2 , м ( Икс ) | , = \ sup _ | F_ (x) -F_ (x) |,>
Для больших выборок нулевая гипотеза отклоняется на уровне, если α
Где и - размеры первой и второй выборки соответственно. Значение приведено в таблице ниже для наиболее распространенных уровней п м c ( α ) )> α
так что условие читается
Здесь, опять же, чем больше размер выборки, тем более чувствительна минимальная граница: для данного соотношения размеров выборки (например ) минимальная граница масштабируется в размере любой из выборок в соответствии с ее обратным квадратным корнем. м знак равно п
Обратите внимание, что тест с двумя выборками проверяет, происходят ли две выборки данных из одного и того же распределения. Это не указывает, что это за общее распределение (например, нормальное оно или ненормальное). Опять же, были опубликованы таблицы критических значений. Недостатком одномерного теста Колмогорова – Смирнова является то, что он не очень эффективен, поскольку разработан так, чтобы быть чувствительным ко всем возможным типам различий между двумя функциями распределения. Некоторые утверждают, что тест Куккони , первоначально предложенный для одновременного сравнения местоположения и масштаба, может быть намного более мощным, чем тест Колмогорова – Смирнова при сравнении двух функций распределения.
Установка доверительных интервалов для формы функции распределения
Хотя тест Колмогорова – Смирнова обычно используется для проверки того, является ли данное F ( x ) основным распределением вероятностей для F n ( x ), процедура может быть инвертирована, чтобы дать доверительные интервалы для самого F ( x ). Если выбрать критическое значение тестовой статистики D α такое, что P ( D n > D α ) = α , то полоса шириной ± D α вокруг F n ( x ) будет полностью содержать F ( x ) с вероятностью 1 - α .
Статистика Колмогорова – Смирнова более чем в одном измерении
Не содержащий распределения многомерный критерий согласия Колмогорова – Смирнова был предложен Justel , Peña и Zamar (1997). В тесте используется статистика, построенная с использованием преобразования Розенблатта, и разработан алгоритм для ее вычисления в двумерном случае. Также представлен примерный тест, который можно легко вычислить в любом измерении.
Статистику критерия Колмогорова – Смирнова необходимо изменить, если аналогичный критерий будет применяться к многомерным данным . Это непросто, потому что максимальная разница между двумя совместными кумулятивными функциями распределения обычно не совпадает с максимальной разницей любой из дополнительных функций распределения. Таким образом, максимальная разность будет отличаться в зависимости от того, какой из или или любых из двух других возможных механизмов используются. Можно потребовать, чтобы результат используемого теста не зависел от того, какой выбор сделан. Pr ( Икс < Икс ∧ у < Y ) Pr ( Икс < Икс ∧ Y > у )
Один из подходов к обобщению статистики Колмогорова – Смирнова на более высокие измерения, который отвечает вышеупомянутой проблеме, состоит в том, чтобы сравнить cdfs двух выборок со всеми возможными порядками и взять наибольшее значение из набора результирующих статистик K – S. В д измерений, есть 2 г -1 , такие доки. Одно такое изменение связано с Павлином (см. Также Госсет для трехмерной версии), а другое - с Фазано и Франческини (см. Лопес и др. Для сравнения и деталей вычислений). Критические значения для статистики теста могут быть получены путем моделирования, но они зависят от структуры зависимости в совместном распределении.
В одном измерении статистика Колмогорова – Смирнова идентична так называемому звездному расхождению D, поэтому еще одно собственное расширение KS на более высокие измерения было бы просто использовать D также и для более высоких измерений. К сожалению, звездное расхождение трудно вычислить в больших размерах.
В 2021 году была открыта функциональная форма многомерной статистики теста KS, которая упростила задачу оценки вероятностей хвоста многомерной статистики теста KS, которая необходима для статистического теста. Для многомерного случая, если F i является i- м непрерывным маргиналом из распределения вероятностей с k переменными, то
поэтому предельное распределение не зависит от предельных распределений.
Реализации
Тест Колмогорова-Смирнова (одна или две выборки проверяют равенство распределений) реализован во многих программах:
При помощи этого теста по выбору можно проверить, соответствует ли реальное распределение переменной нормальному (Гауса), равномерному, экспоненциальному распределению или распределению Пуассона. Разумеется, самым распространённым видом проверки является проверка наличия нормального распределения.
Чтобы продемонстрировать работу данного теста, проверим на предмет наличия нормального распределения исходные значения холестерина, то есть переменную cho10 из файла hyper.sav.
Рис. 14.5: Диалоговое окно One Sample Kolomgorov-Smirnov Test
(Тест Колмогорова-Смирнова для одной выборки)
Предварительно установленной является проверка на нормальное распределение. В окне просмотра появятся следующие результаты:
One-Sample Kolmogorov-Smirnov Test (Тест Колмогорова-Смирнова для одной выборки)
Cholesterin, Ausgangswert (Холестерин, исходная величина) | ||
N | 174 | |
Normal Parameters (Параметр нормального распределения) а,b | Mean (Среднее значение) Std. Deviation (Стандартное отклонение) | 237,27 49,42 |
Most Extreme Differences (Экстремальные разности) | Absolute (Абсолютные) Positive (Положительные) Negative (Отрицательные) | ,057 ,057 -,046 |
Z Колмогорова-Смирнова | ,756 | |
Asymp. Sig. (2-tailed) (Статистическая значимость (2-сторонняя)) | ,616 |
a. Test distribution is Normal. (Тестируемое распределение является нормальным распределением.)
b. Calculated from data. (Рассчитано исходя из исходных данных.)
Полученные результаты включают:
Отклонение от нормального распределения считается существенным при значении р < 0,05; в этом случае для соответствующих переменных следует применять непараметрические тесты. В рассматриваемом примере (значение р = 0,616), то есть вероятность ошибки не является значимой; поэтому значения переменной достаточно хорошо подчиняются нормальному распределению и можно применять параметрические тесты.
Данный критерий позволяет оценить существенность различий между двумя выборками. Его применение возможно также для сравнения эмпирического распределения с теоретическим.
Объёмы рассматриваемых выборок должны быть достаточно большими: ≥50,≥50. Для использования теста выборки должны быть представлены в виде частотного распределения, при этомчисло категорий должно быть небольшим (до 7-9).
Критерий позволяет найти категорию, в которой сумма частот расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.
Определяются категории значений признака.
Строится частотное распределение каждой выборки по выделенным категориям.
Вычисляются относительные частоты , равные частному от деления частот на объём выборки, для каждой из имеющихся выборок.
Определяется модуль разности соответствующих относительных частот.
Определяется наибольший модуль, который обозначается .
Вычисляется эмпирическое значение критерия :
Определяется критическое значение критерия для выбранного уровня значимости.
Если эмпирическое значение критерия больше критического, то нулевая гипотеза отвергается, и группы по рассмотренному признаку отличаются существенно.
Схематично алгоритм применения критерия Колмогорова-Смирнова можно представить следующим образом:
Пример сравнения двух независимых выборок с использованием теста Колмогорова-Смирнова
Являются ли значимыми различия между творческой активностью контрольной и экспериментальной группами студентов?
Частота в экспериментальной группе
Частота в контрольной группе
=172+36+15=223
=120+49+36=205
Вычисляем относительные частоты , равные частному от деления частот на объём выборки, для каждой из имеющихся выборок.
Определяем модуль разности соответствующих относительных частот для контрольной и экспериментальной выборок.
В результате исходная таблица примет следующий вид:
Относительная частота экспериментальной группы (fэксп)
Относительная частота контрольной группы (fконтр)
Модуль разности частот |fэксп – fконтр|
Среди полученных модулей разностей относительных частот выбираем наибольший модуль, который обозначается =0.18.
Эмпирическое значение критерия λэмп определяется с помощью формулы:
Считая, что , по таблице (приложение 4) определяем критическое значение критерия: . , следовательно, нулевая гипотеза отвергается, и группы по рассмотренному признаку отличаются существенно.
5.6 Сравнение двух зависимых выборок
Имеются данные обследования, полученные в двух опытах (или в двух замерах), но на одной и той же группе единиц совокупности. Две выборки считаются зависимыми, если каждому значению одной выборки однозначно ставится в соответствие ровно одно значение другой выборки.
Зависимые (связанные, попарно сопряженные) выборки - это выборки, представляющие собой параметры одной и той же совокупности до и после воздействия некоторого фактора.
Чаще всего зависимые выборки – это измерения одной и той же группы объектов в разные моменты времени (например, до и после воздействия какого-либо фактора). Таким образом, зависимые выборки всегда должны содержать одинаковое количество наблюдений. Для того чтобы доказать эффективность воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Сдвигом называется разность между значениями измеряемого параметра «после» и «до» проведения эксперимента.
Наиболее часто для сравнения зависимых выборок используют параметрический тест – -критерий Стьюдента и непараметрические тесты – критерий знаков и критерий Уилкоксона.
Критерий знаков - это непараметрический тест, использующийся фактически для сравнения медианы распределения с каждым конкретным значением. Критерий знаков предъявляет к тестируемой выборке только одно требование: шкала измерений должна быть порядковой, интервальной или относительной (т.е. тест нельзя применять к номинальным переменным). Других ограничений (в том числе и на форму распределения) нет. С одной стороны, это делает тест настолько широко применимым, насколько это вообще возможно. С другой - снижает его мощность, поскольку тест не может опираться в своей работе на какие-либо предположения о свойствах анализируемого распределения.
Невысокая мощность критерия знаков особенно сильно проявляется на небольших выборках. Это является следствием того, что тест использует информацию только о положении элементов выборки относительно предполагаемой медианы: слева или справа. Информация об их сравнительной величине тестом не используется. В то же время, есть более мощный тест - W-критерий Уилкоксона, использующий информацию о ранге элементов в выборке. К сожалению, сфера применения этого теста ограничена распределениями, симметричными относительно медианы. Для несимметричных распределений он дает некорректные результаты, так что в нашем распоряжении остается только менее мощный критерий знаков.
Читайте также: