Как посчитать хи квадрат в экселе
- Тест хи-квадрат на соответствие
- Критерий хи-квадрат на независимость двух переменных.
Запись:- Степень соответствия статистической модели относится к пониманию того, насколько хорошо данные выборки соответствуют набору наблюдений.
Использует
- Кредитоспособность заемщиков в зависимости от их возрастных групп и личных займов
- Связь между эффективностью продавцов и полученным обучением
- Рентабельность отдельных акций и акций такого сектора, как фармацевтический или банковский.
- Категория зрителей и влияние телекампании.
Он используется для проверки того, являются ли переменные независимыми друг от друга или нет. С (r-1) (c-1) степенями свободы
Запись:- Две случайные величины называются независимыми, если на распределение вероятностей одной переменной не влияет другая.Использует
Тест на независимость подходит для следующих ситуаций:
- Есть одна категориальная переменная.
- Есть две категориальные переменные, и вам нужно будет определить связь между ними.
- Существуют перекрестные таблицы, и необходимо найти связь между двумя категориальными переменными.
- Существуют переменные, не поддающиеся количественной оценке (например, ответы на такие вопросы, как, выбирают ли сотрудники разных возрастных групп разные типы планов медицинского страхования?)
Как сделать тест хи-квадрат в Excel? (с примером)
Менеджер ресторана хочет найти связь между удовлетворенностью клиентов и зарплатой людей, ожидающих столиков. Здесь мы создадим гипотезу для проверки хи-квадрат.
Теперь посчитаем сумму всех строк и столбцов. Сделаем это с помощью формулы, т.е. СУММ. Для итогового отличия в столбце итогов мы написали = СУММ (B4: D4) а затем нажмите клавишу ввода.
Это даст нам 26. Проделаем то же самое со всеми строками и столбцами.
Для расчета Степень свободы (DF), мы используем (г-1) (с-1)
DF = (3-1) (3-1) = 2 * 2 = 4
- Есть 3 категории обслуживания и 3 категории заработной платы.
- У нас 27 респондентов со средней зарплатой (нижний ряд, средний)
- У нас 51 респондент с хорошим сервисом (последний столбец, средний)
- Для расчета Превосходно, мы будем использовать умножение суммы Низкий в общей сложности Отлично разделено автор Н.
Предположим, нам нужно вычислить для 1-й строки и 1-го столбца (= B7 * E4 / B9). Это даст ожидаемое количество клиентов, которые проголосовали Превосходно обслуживание зарплаты людей, ожидающих как низкий, т.е. 8,32.
Точно так же для всех мы должны сделать то же самое, и формула применяется на диаграмме ниже.
Запись:- Предположим, что уровень значимости равен 0,05. Здесь H0 и H1 обозначают независимость и зависимость качества обслуживания от заработной платы обслуживающего персонала.
После вычисления ожидаемой частоты мы вычислим точки данных хи-квадрат с помощью формулы.
Точки хи-квадрат = (наблюдаемое-ожидаемое) ^ 2 / ожидаемое
Для вычисления первой точки запишем = (B4-B14) ^ 2 / B14.
Мы скопируем и вставим формулу в другие ячейки для автоматического заполнения значения.
После этого рассчитаем значение хи (расчетное значение) добавив все значения, указанные над таблицей.
Мы получили значение Хи как 18,65823.
Чтобы вычислить критическое значение для этого, мы используем таблицу критических значений хи-квадрат или формулу, приведенную ниже.
Эта формула содержит 2 параметра CHISQ.INV.RT (вероятность, степень свободы).
Вероятность 0,05, и это важное значение, которое поможет нам определить, принимать ли Нулевая гипотеза (H0) или нет.
Критическое значение хи-квадрат равно 9.487729037.
Теперь найдем значение хи-квадрат или (P-значение)знак равно CHITEST (фактический_ диапазон, ожидаемый_ диапазон)
Диапазон от = ХИТЕСТ (B4: D6; B14: D16).
Как мы видели, значение критерия хи или P-value = 0,00091723.
Мы рассчитали все значения. В хи-квадрат (расчетное значение) значения имеют значение только тогда, когда его значение такое же или больше, чем критическое значение 9,48, т.е. критическое значение (значение в таблице) должен быть выше, чем 18,65 принять Нулевая гипотеза (H0).
Но здесь Расчетное значение > Табулированное значение
Икс 2 (Рассчитано)> X 2 (В таблице)
18,65> 9,48
В этом случае мы откажемся от Нулевая гипотеза (H0), и Альтернативный (H1) будут приняты.
Данный пост не отвечает, как в принципе считать критерий Хи квадрат, его цель - показать, как можно автоматизировать расчет Хи квадрат в excel, какие функции для расчета критерия Хи квадрат там есть. Ибо не всегда под рукой есть SPSS или программа R.
В каком-то смысле это напоминалка и подсказка участникам семинара Аналитика для HR, надеюсь вы используете эти методы в работе, этот пост будет еще одной подсказкой.
Я не даю файл ссылкой на скачивание, но вы вполне можете просто скопировать приведенные мной таблицы примеров и провести вычисления Хи квадрат в excel по приведенным мной данным и формулам
Вводная
Например, мы хотим проверить независимость (случайность / неслучайность) распределения результатов корпоративного опроса, где в строках ответы на какой либо вопрос анкеты, а в столбцах - распределение по стажу.
ХИ2.ТЕСТ
Формула ХИ2.ТЕСТ вычисляет вероятность независимости (случайность / неслучайность) распределения
В нашем случае фактический интервал это содержимое таблицы, т.е.
а ожидаемые частоты мы даем отдельной таблицей (как считаются ожидаемые частоты - смотрите пост Как в excel быстро считать ожидаемые частоты для вычисления Хи квадрат)
в нашем случае значение ХИ2.ТЕСТ = 0,000466219908895455 - т.е. вероятность независимости распределения 0, 046 %, что значительно ниже принятых в статистике норм в 5 и 1 %. Т.е. мы отвергаем гипотезу о независимости распределения.
Обращаю ваше внимание, что ХИ2.ТЕСТ считает вероятнсть без поправки на непрерывность. Т.е. в таблицах размерностью 2Х2 вы не сможете применить данную формулу по вычислению Хи квадрат
ХИ2.РАСП.ПХ
Возвращает правостороннюю вероятность распределения хи-квадрат (или вероятность случайности / не случайности распределения)
ХИ2.РАСП.ПХ(x;степени_свободы), где х - Хи квадрат эмпирическое
Т.е. в отличие от формулы вычисления Хи квадрат в excel ХИ2.ТЕСТ в данном случае мы считает Хи квадрат эмпирические = 28, 04258 и число степеней свободы
В нашем случае ХИ2.РАСП.ПХ = 0,000466219908895455, как и в примере с ХИ2.ТЕСТ
Примечание
Эта формула вычисления Хи квадрат в excel подойдет вам для вычисления таблиц размерностью 2Х2, поскольку вы сами считаете Хиквадрат эмпирическое и можете ввести в расчеты поправку на непрерывность
Примечание 2
Есть также формула ХИ2.РАСП (вы с неизбежностью увидите ее в excel) - она считает левостороннюю вероятность (если по простому, то левосторонняя считается как 1 - правосторонняя, т.е. мы просто переворачиваем формулу, поэтому я и не даю ее в расчетах Хи квадрат, в нашем примере ХИ2.РАСП = 0,999533780091105.
Итого ХИ2.РАСП + ХИ2.РАСП.ПХ = 1.
ХИ2.ОБР.ПХ
Возвращает значение, обратное правосторонней вероятности распределения хи-квадрат (или просто значение Хи квадрат для определенного уровня вероятности и количества степеней свободы)
В нашем случае Хи квадрат эмпирическое = 28, 04258, а число степеней свободы = 8, мы хотим проверить критические значения Хи квадрат для данного распределения. Как уже сказал, в статистике принято принимать гипотезы при уровне 0, 05 и 0, 01. В нашем случае
Наш Хи квадрат эмпирический превышает необходимое критическое значение в 1 %, поэтому мы отвергаем гипотезу о независимости (случайности) распределения.
Примечание
С помощью формулы можно получить не только Хи квадрат критический, но и собственно Хи квадрат эмпирический.
В первом примере мы получили вероятность ХИ2.ТЕСТ = 0,000466219908895455
Примечание 2
Есть также формула ХИ2.ОБР, для этой формулы справедливо примечание 2, которое я привел для формулы ХИ2.РАСП.ПХ
Заключение
Честно признаюсь, не владею точной информацией, насколько полученные результаты вычисления Хи квадрат в excel отличаются от результатов вычисления Хи квадрат в SPSS. Точно понимаю. что отличаются, хотя бы потому, что при самостоятельном вычислении Хи квадрат значения округляются и теряется какое-то количество знаков после запятой. Но не думаю, что это является критичным. Рекомендую лишь страховаться в том случае, когда вероятность распределения Хи квадрат близко к порогу (p-value) 0, 05.
Не очень здорово, что не учитывается поправка на непрерывность - у нас многое вычисляется в таблицах 2Х2. Поэтому мы почти не достигаем оптимизации в случае расчета таблиц 2Х2
Ну и тем не менее, думаю, что приведенных знаний достаточно, чтобы сделать вычисление Хи квадрат в excel чуть быстрее, чтобы сэкономить время на более важные вещи
Комментариев нет:
курсы и тренинги
тренинги и услуги
Архив блога
Ярлыки
Рассылка
Поиск по этому блогу
Перевод статьи 70 HR Metrics With Examples ( Build your own HR Dashboard ) в рамках нашего проекта переводы статей по hr-аналитике на.
Введение в HR-аналитику - семинар для тех, кто начинает свой путь в HR-аналитику. Не претендую на полноту охвата темы, моя задача - дать не.
Он-лайн курсы по HR-аналитике Принципы создания HR-дашбордов в excel Принципы создания и анализа корпоративных опросов Текучес.
Тест хи-квадрат в Excel - одна из таких статистических функций, которая используется для расчета ожидаемого значения из набора данных, который имеет наблюдаемые значения. Excel - это универсальный инструмент для анализа данных как визуально, так и статистически. Это один из немногих инструментов для работы с электронными таблицами, который поддерживает расширенные статистические функции. Используя эти функции, мы можем получить представление о наборе данных, что может быть невозможно, просто визуально проанализировав их. В этой статье мы узнаем, как рассчитать площадь Чи из базы данных с помощью Excel. Прежде чем перейти к деталям теста Чи-квадрат, давайте рассмотрим несколько примеров.
Тест хи-квадрат - это проверка правильности гипотезы. Значение P хи-квадрат говорит нам, являются ли наши наблюдаемые результаты статистически значимыми или нет. Статистически значимый результат означает, что мы отвергаем нулевую гипотезу (нулевая гипотеза в статистике является утверждением или гипотезой, которая, вероятно, будет неверной). Значение P хи-квадрат представляет собой число от 0 до 1. Значение P хи-квадрат меньше 0, 05 обычно приводит к отклонению нулевой гипотезы.
Как сделать тест Чи-квадрат в Excel?
Давайте разберемся, как сделать тест хи-квадрат в Excel с некоторыми примерами.
Вы можете скачать этот шаблон Excel для теста Чи-квадрат здесь - Шаблон Excel для теста на Чи-квадрат
Пример № 1
Тест хи-квадрат может сказать нам, являются ли пропорции данного числа элементов в одном месте на основе случайной выборки статистически независимыми друг от друга или нет.
Предположим, у вашей компании есть 10000 предметов мебели. Примерно одна десятая из них распределена по четырем залам. Мы можем узнать, какая доля всей мебели в одном зале, как показано ниже:
Обратите внимание, что у нас есть около 250 предметов мебели в каждом зале. Если мы хотим получить ожидаемое количество мебели по типу, мы рассчитаем его следующим образом:
Ожидаемое значение = общая сумма столбца категории X (общая сумма строки категории / общий размер выборки)
Используя эту формулу, мы получаем ожидаемое количество около 92 стульев в зале A следующим образом:
Ожидаемое количество стульев в зале A = 250 X (362/984)
Мы проверим разницу, используя следующую формулу:
((Наблюдаемое значение - ожидаемое значение) ⁿ) / ожидаемое значение
В случае теста хи-квадрат n = 2
Что даст нам значение 0, 713928183. Аналогично, мы найдем значения для каждой величины, а сумма этих значений является тестовой статистикой. Эта статистика имеет приблизительное распределение хи-квадрат, если каждая величина не зависит от другой. Степень свободы для каждой величины будет определяться по следующей формуле:
(количество строк - 1) (количество столбцов - 1)
Который в этом случае равен 6.
Мы находим P-значение Chi Square для первого значения, которое является количеством стульев. Нулевая гипотеза состоит в том, что расположение мебели не зависит от типа мебели.
Значение Chi Square P для стульев будет рассчитываться как:
Сумма всех значений P хи-квадрат должна быть равна 1, если нулевая гипотеза верна.
В настоящем наборе данных, если статистика теста слишком велика, мы отвергаем нулевую гипотезу.
Как видно из приведенного выше примера, вычисление квадрата Хи и проверка значимости предполагаемых данных в статистике является кропотливым процессом и требует высокой точности. Приведенный выше пример можно проанализировать с помощью функции CHISQ.TEST, чтобы получить значение Chi Square напрямую и проверить правильность нашего предположения о том, что расположение мебели не зависит от типа мебели. В таком случае:
Значение хи-квадрат составляет примерно 0, 03. Из нашего предыдущего обсуждения мы теперь знаем, что это отвергает нулевую гипотезу.
Пример № 2
Чтобы вычислить значение p в Excel, нам нужно выполнить следующие шаги:
- Рассчитайте ваше ожидаемое значение. Ожидаемое значение в хи-квадрат обычно является простым средним или средним для нормально распределенных наборов данных. Для более сложных данных, пожалуйста, проверьте пример выше.
- Введите данные в столбцы и щелкните пустую ячейку, в которой вы хотите отобразить результаты на рабочем листе, а затем нажмите кнопку «Вставить функцию» на панели инструментов, появится всплывающее окно. Введите chi в поле «Поиск функции», затем нажмите «Перейти». Затем выберите «CHITEST» из списка и нажмите «ОК».
- Выберите наблюдаемые и ожидаемые диапазоны и нажмите «ОК».
Мы получим результат следующим образом.
То, что нужно запомнить
- CHISQ.TEST - не единственная функция Chi Square, доступная в Excel. Все варианты Chi Square доступны и могут быть использованы в зависимости от вашего мастерства в области статистики.
- Функции CHISQ также можно напрямую вводить в ячейку, как и любую другую функцию. Это сэкономит время, если вы уже знаете диапазоны данных, с которыми работаете.
- Надежность функции CHISQ напрямую зависит от структуры и распределения данных, а также от ясности проверяемых гипотез. Особую осторожность следует использовать при использовании теста хи-квадрат для проверки значимости.
Рекомендуемые статьи
Это было руководство к тесту Chi Square в Excel. Здесь мы обсуждаем, как сделать Chi Square Test в Excel вместе с практическими примерами и загружаемым шаблоном Excel. Вы также можете просмотреть наши другие предлагаемые статьи -
До конца XIX века нормальное распределение считалась всеобщим законом вариации данных. Однако К. Пирсон заметил, что эмпирические частоты могут сильно отличаться от нормального распределения. Встал вопрос, как это доказать. Требовалось не только графическое сопоставление, которое имеет субъективный характер, но и строгое количественное обоснование.
Так был изобретен критерий χ 2 (хи квадрат), который проверяет значимость расхождения эмпирических (наблюдаемых) и теоретических (ожидаемых) частот. Это произошло в далеком 1900 году, однако критерий и сегодня на ходу. Более того, его приспособили для решения широкого круга задач. Прежде всего, это анализ категориальных данных, т.е. таких, которые выражаются не количеством, а принадлежностью к какой-то категории. Например, класс автомобиля, пол участника эксперимента, вид растения и т.д. К таким данным нельзя применять математические операции вроде сложения и умножения, для них можно только подсчитать частоты.
Наблюдаемые частоты обозначим О (Observed), ожидаемые – E (Expected). В качестве примера возьмем результат 60-кратного бросания игральной кости. Если она симметрична и однородна, вероятность выпадения любой стороны равна 1/6 и, следовательно, ожидаемое количество выпадения каждой из сторон равна 10 (1/6∙60). Наблюдаемые и ожидаемые частоты запишем в таблицу и нарисуем гистограмму.
Нулевая гипотеза заключается в том, что частоты согласованы, то есть фактические данные не противоречат ожидаемым. Альтернативная гипотеза – отклонения в частотах выходят за рамки случайных колебаний, расхождения статистически значимы. Чтобы сделать строгий вывод, нам потребуется.
- Обобщающая мера расхождения между наблюдаемыми и ожидаемыми частотами.
- Распределение этой меры при справедливости гипотезы о том, что различий нет.
Обратим внимание на следующие факты. В общем случае количество категорий, по которым измеряются частоты, может быть гораздо больше, поэтому вероятность того, что отдельно взятое наблюдение попадет в ту или иную категорию, довольно мала. Раз так, то, распределение такой случайной величины будет подчинятся закону редких событий, известному под названием закон Пуассона. В законе Пуассона, как известно, значение математического ожидания и дисперсии совпадают (параметр λ). Значит, ожидаемая частота для некоторой категории номинальной переменной Ei будет являться одновременное и ее дисперсией. Далее, закон Пуассона при большом количестве наблюдений стремится к нормальному. Соединяя эти два факта, получаем, что, если гипотеза о согласии наблюдаемых и ожидаемых частот верна, то, при большом количестве наблюдений, выражение
Важно помнить, что нормальность будет проявляться только при достаточно больших частотах. В статистике принято считать, что общее количество наблюдений (сумма частот) должна быть не менее 50 и ожидаемая частота в каждой группе должна быть не менее 5. Только в этом случае величина, показанная выше, имеет стандартное нормальное распределение. Предположим, что это условие выполнено.
У стандартного нормального распределения почти все значение находятся в пределах ±3 (правило трех сигм). Таким образом, мы получили относительную разность в частотах для одной группы. Нам нужна обобщающая мера. Просто сложить все отклонения нельзя – получим 0 (догадайтесь почему). Пирсон предложил сложить квадраты этих отклонений.
Это и есть статистика для критерия Хи-квадрат Пирсона. Если частоты действительно соответствуют ожидаемым, то значение статистики Хи-квадрат будет относительно не большим (отклонения находятся близко к нулю). Большое значение статистики свидетельствует в пользу существенных различий между частотами.
«Большой» статистика Хи-квадрат становится тогда, когда появление наблюдаемого или еще большего значения становится маловероятным. И чтобы рассчитать такую вероятность, необходимо знать распределение статистики Хи-квадрат при многократном повторении эксперимента, когда гипотеза о согласии частот верна.
Как нетрудно заметить, величина хи-квадрат также зависит от количества слагаемых. Чем больше слагаемых, тем больше ожидается значение статистики, ведь каждое слагаемое вносит свой вклад в общую сумму. Следовательно, для каждого количества независимых слагаемых, будет собственное распределение. Получается, что χ 2 – это целое семейство распределений.
И здесь мы подошли к одному щекотливому моменту. Что такое число независимых слагаемых? Вроде как любое слагаемое (т.е. отклонение) независимо. К. Пирсон тоже так думал, но оказался неправ. На самом деле число независимых слагаемых будет на один меньше, чем количество групп номинальной переменной n. Почему? Потому что, если мы имеем выборку, по которой уже посчитана сумма частот, то одну из частот всегда можно определить, как разность общего количества и суммой всех остальных. Отсюда и вариация будет несколько меньше. Данный факт Рональд Фишер заметил лет через 20 после разработки Пирсоном своего критерия. Даже таблицы пришлось переделывать.
По этому поводу Фишер ввел в статистику новое понятие – степень свободы (degrees of freedom), которое и представляет собой количество независимых слагаемых в сумме. Понятие степеней свободы имеет математическое объяснение и проявляется только в распределениях, связанных с нормальным (Стьюдента, Фишера-Снедекора и сам Хи-квадрат).
Чтобы лучше уловить смысл степеней свободы, обратимся к физическому аналогу. Представим точку, свободно движущуюся в пространстве. Она имеет 3 степени свободы, т.к. может перемещаться в любом направлении трехмерного пространства. Если точка движется по какой-либо поверхности, то у нее уже две степени свободы (вперед-назад, вправо-влево), хотя и продолжает находиться в трехмерном пространстве. Точка, перемещающаяся по пружине, снова находится в трехмерном пространстве, но имеет лишь одну степень свободы, т.к. может двигаться либо вперед, либо назад. Как видно, пространство, где находится объект, не всегда соответствует реальной свободе перемещения.
Примерно также распределение статистики может зависеть от меньшего количества элементов, чем нужно слагаемых для его расчета. В общем случае количество степеней свободы меньше наблюдений на число имеющихся зависимостей.
Таким образом, распределение хи квадрат (χ 2 ) – это семейство распределений, каждое из которых зависит от параметра степеней свободы. Формальное определение следующее. Распределение χ 2 (хи-квадрат) с k степенями свободы — это распределение суммы квадратов k независимых стандартных нормальных случайных величин.
Далее можно было бы перейти к самой формуле, по которой вычисляется функция распределения хи-квадрат, но, к счастью, все давно подсчитано за нас. Чтобы получить интересующую вероятность, можно воспользоваться либо соответствующей статистической таблицей, либо готовой функцией в Excel.
Интересно посмотреть, как меняется форма распределения хи-квадрат в зависимости от количества степеней свободы.
С увеличением степеней свободы распределение хи-квадрат стремится к нормальному. Это объясняется действием центральной предельной теоремы, согласно которой сумма большого количества независимых случайных величин имеет нормальное распределение. Про квадраты там ничего не сказано )).
Проверка гипотезы по критерию Хи квадрат Пирсона
Вот мы и подошли к проверке гипотез по методу хи-квадрат. В целом техника остается прежней. Выдвигается нулевая гипотеза о том, что наблюдаемые частоты соответствуют ожидаемым (т.е. между ними нет разницы, т.к. они взяты из той же генеральной совокупности). Если этот так, то разброс будет относительно небольшим, в пределах случайных колебаний. Меру разброса определяют по статистике Хи-квадрат. Далее либо полученную статистику сравнивают с критическим значением (для соответствующего уровня значимости и степеней свободы), либо, что более правильно, рассчитывают наблюдаемый p-value, т.е. вероятность получить такое или еще больше значение статистики при справедливости нулевой гипотезы.
Т.к. нас интересует согласие частот, то отклонение гипотезы произойдет, когда статистика окажется больше критического уровня. Т.е. критерий является односторонним. Однако иногда (иногда) требуется проверить левостороннюю гипотезу. Например, когда эмпирические данные уж оооочень сильно похожи на теоретические. Тогда критерий может попасть в маловероятную область, но уже слева. Дело в том, что в естественных условиях, маловероятно получить частоты, практически совпадающие с теоретическими. Всегда есть некоторая случайность, которая дает погрешность. А вот если такой погрешности нет, то, возможно, данные были сфальсифицированы. Но все же обычно проверяют правостороннюю гипотезу.
Вернемся к задаче с игральной костью. Рассчитаем по имеющимся данным значение статистики критерия хи-квадрат.
Теперь найдем критическое значение при 5-ти степенях свободы (k) и уровне значимости 0,05 (α) по таблице критических значений распределения хи квадрат.
То есть квантиль 0,05 хи квадрат распределения (правый хвост) с 5-ю степенями свободы χ 2 0,05; 5 = 11,1.
Сравним фактическое и табличное значение. 3,4 (χ 2 ) < 11,1 (χ 2 0,05; 5). Расчетный значение оказалось меньшим, значит гипотеза о равенстве (согласии) частот не отклоняется. На рисунке ситуация выглядит вот так.
Если бы расчетное значение попало в критическую область, то нулевая гипотеза была бы отклонена.
Более правильным будет рассчитать еще и p-value. Для этого нужно в таблице найти ближайшее значение для заданного количества степеней свободы и посмотреть соответствующий ему уровень значимости. Но это прошлый век. Воспользуемся ЭВМ, в частности MS Excel. В эксель есть несколько функций, связанных с хи-квадрат.
Ниже их краткое описание.
ХИ2.ОБР – критическое значение Хи-квадрат при заданной вероятности слева (как в статистических таблицах)
ХИ2.ОБР.ПХ – критическое значение при заданной вероятности справа. Функция по сути дублирует предыдущую. Но здесь можно сразу указывать уровень α, а не вычитать его из 1. Это более удобно, т.к. в большинстве случаев нужен именно правый хвост распределения.
ХИ2.РАСП – p-value слева (можно рассчитать плотность).
ХИ2.РАСП.ПХ – p-value справа.
ХИ2.ТЕСТ – по двум диапазонам частот сразу проводит тест хи-квадрат. Количество степеней свободы берется на одну меньше, чем количество частот в столбце (так и должно быть), возвращая значение p-value.
Давайте пока рассчитаем для нашего эксперимента критическое (табличное) значение для 5-ти степеней свободы и альфа 0,05. Формула Excel будет выглядеть так:
Результат будет одинаковым – 11,0705. Именно это значение мы видим в таблице (округленное до 1 знака после запятой).
Рассчитаем, наконец, p-value для 5-ти степеней свободы критерия χ 2 = 3,4. Нужна вероятность справа, поэтому берем функцию с добавкой ПХ (правый хвост)
Значит, при 5-ти степенях свободы вероятность получить значение критерия χ 2 = 3,4 и больше равна почти 64%. Естественно, гипотеза не отклоняется (p-value больше 5%), частоты очень хорошо согласуются.
А теперь проверим гипотезу о согласии частот с помощью теста хи квадрат и функции Excel ХИ2.ТЕСТ.
Никаких таблиц, никаких громоздких расчетов. Указав в качестве аргументов функции столбцы с наблюдаемыми и ожидаемыми частотами, сразу получаем p-value. Красота.
Представим теперь, что вы играете в кости с подозрительным типом. Распределение очков от 1 до 5 остается прежним, но он выкидывает 26 шестерок (количество всех бросков становится 78).
p-value в этом случае оказывается 0,003, что гораздо меньше чем, 0,05. Есть серьезные основания сомневаться в правильности игральной кости. Вот, как выглядит эта вероятность на диаграмме распределения хи-квадрат.
Статистика критерия хи-квадрат здесь получается 17,8, что, естественно, больше табличного (11,1).
Надеюсь, мне удалось объяснить, что такое критерий согласия χ 2 (хи-квадрат) Пирсона и как с его помощью проверяются статистические гипотезы.
Напоследок еще раз о важном условии! Критерий хи-квадрат исправно работает только в случае, когда количество всех частот превышает 50, а минимальное ожидаемое значение для каждой группы не меньше 5. Если в какой-либо категории ожидаемая частота менее 5, но при этом сумма всех частот превышает 50, то такую категорию объединяют с ближайшей, чтобы их общая частота превысила 5. Если это сделать невозможно, или сумма частот меньше 50, то следует использовать более точные методы проверки гипотез. О них поговорим в другой раз.
Ниже находится видео ролик о том, как в Excel проверить гипотезу с помощью критерия хи-квадрат.
Читайте также: