Как считать хи квадрат в excel
Перейти к содержимому

Как считать хи квадрат в excel

  • автор:

Функция ХИ2РАСП

Excel для Microsoft 365 Excel для Microsoft 365 для Mac Excel для Интернета Excel 2021 Excel 2021 для Mac Excel 2019 Excel 2019 для Mac Excel 2016 Excel 2016 для Mac Excel 2013 Excel 2010 Excel 2007 Excel для Mac 2011 Excel Starter 2010 Еще. Меньше

Возвращает правостороннюю вероятность распределения хи-квадрат. Распределение χ2 связано с критерием χ2. Критерий χ2 используется для сравнения ожидаемых и наблюдаемых значений. Например, в генетическом эксперименте выдвигается гипотеза, что следующее поколение растений будет обладать определенной окраской. Сравнивая наблюдаемые результаты с ожидаемыми, можно определить, верна ли исходная гипотеза.

Важно: Эта функция была заменена одной или несколькими новыми функциями, которые обеспечивают более высокую точность и имеют имена, лучше отражающие их назначение. Хотя эта функция все еще используется для обеспечения обратной совместимости, она может стать недоступной в последующих версиях Excel, поэтому мы рекомендуем использовать новые функции.

Чтобы узнать больше о новых функциях, см. разделы Функция ХИ2.РАСП и Функция ХИ2.РАСП.ПХ.

Синтаксис

Аргументы функции ХИ2РАСП описаны ниже.

  • X — обязательный аргумент. Значение, для которого требуется вычислить распределение.
  • Степени_свободы — обязательный аргумент. Число степеней свободы.

Замечания

  • Если один из аргументов не является числом, то ХИ2IST возвращает #VALUE! значение ошибки #ЗНАЧ!.
  • Если x имеет отрицательное отношение, то ХИ2IST возвращает #NUM! значение ошибки #ЗНАЧ!.
  • Если значение степени_свободы не целое, оно усекается.
  • Если deg_freedom < 1 или deg_freedom >10^10, то ХИ2IST возвращает #NUM! значение ошибки #ЗНАЧ!.
  • ХИ2РАСП вычисляется как ХИ2РАСП = P(X>x), где x — случайная величина χ2.

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Значение, для которого требуется вычислить распределение

Как выполнить критерий согласия хи-квадрат в Excel

Как выполнить критерий согласия хи-квадрат в Excel

Хи-квадрат критерий согласия используется для определения того, следует ли категориальная переменная гипотетическому распределению.

В этом руководстве объясняется, как выполнить критерий согласия Хи-квадрат в Excel.

Пример: критерий согласия хи-квадрат в Excel

Владелец магазина утверждает, что каждый будний день в его магазин приходит одинаковое количество покупателей. Чтобы проверить эту гипотезу, независимый исследователь записывает количество покупателей, которые заходят в магазин на определенной неделе, и обнаруживает следующее:

Мы будем использовать следующие шаги, чтобы выполнить критерий согласия Хи-квадрат, чтобы определить, согласуются ли данные с заявлением владельца магазина.

Шаг 1: Введите данные.

Во-первых, мы будем вводить значения данных для ожидаемого количества клиентов каждый день в одном столбце и наблюдаемое количество клиентов каждый день в другом столбце:

Достоверность данных в Excel

Примечание. Всего было 250 клиентов. Таким образом, если владелец магазина ожидает, что каждый день в магазин будет приходить такое же количество покупателей, то он ожидает 50 покупателей в день.

Шаг 2: Найдите разницу между наблюдаемыми и ожидаемыми значениями.

Статистика критерия хи-квадрат для теста согласия равна X 2 = Σ(OE) 2 / E

  • Σ: причудливый символ, означающий «сумма».
  • O: наблюдаемое значение
  • E: ожидаемое значение

Следующая формула показывает, как рассчитать (OE) 2 / E для каждой строки:

Тест Goodness of Fit в Excel

Шаг 3: Рассчитайте статистику теста хи-квадрат и соответствующее значение p.

Наконец, мы рассчитаем статистику теста хи-квадрат вместе с соответствующим значением p, используя следующие формулы:

Хи-квадрат Проверка соответствия в Excel

Примечание. Функция Excel ХИ.РАСП.ВР(x, степень_свободы) возвращает правостороннюю вероятность распределения хи-квадрат, связанную с тестовой статистикой x и определенными степенями свободы. Степени свободы рассчитываются как n-1. В этом случае deg_freedom = 5 – 1 = 4.

Шаг 4: Интерпретируйте результаты.

Статистика теста X 2 для теста составляет 4,36 , а соответствующее значение p равно 0,3595.Поскольку это p-значение не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств того, что истинное распределение покупателей отличается от распределения, о котором заявил владелец магазина.

Проверка простых гипотез критерием хи-квадрат Пирсона в EXCEL

После получения экспериментальных данных (т.е. когда имеется некая выборка ) обычно производится выбор закона распределения, наиболее хорошо описывающего случайную величину, представленную данной выборкой . Проверка того, насколько хорошо экспериментальные данные описываются выбранным теоретическим законом распределения, осуществляется с использованием критериев согласия . Нулевой гипотезой , обычно выступает гипотеза о равенстве распределения случайной величины некоторому теоретическому закону.

Сначала рассмотрим применение критерия согласия Пирсона Х 2 (хи-квадрат) в отношении простых гипотез (параметры теоретического распределения считаются известными). Затем — применение критерияв случае сложных гипотез , когда задается только форма распределения, а параметры этого распределения и значение статистики Х 2 оцениваются/рассчитываются на основании одной и той же выборки .

Примечание : Применение критерия согласия Пирсона Х 2 в отношении сложных гипотез см. статью Проверка сложных гипотез критерием хи-квадрат Пирсона в MS EXCEL .

Примечание : В англоязычной литературе процедура применения критерия согласия Пирсона Х 2 имеет название The chi-square goodness of fit test .

Напомним процедуру проверки гипотез:

  • на основе выборки вычисляется значение статистики , которая соответствует типу проверяемой гипотезы. Например, для проверки гипотезы о равенстве среднего μ некоторому заданному значению μ 0 используется t-статистика (если стандартное отклонение не известно);
  • при условии истинности нулевой гипотезы , распределение этой статистики известно и может быть использовано для вычисления вероятностей (например, для t-статистики это распределение Стьюдента );
  • вычисленное на основе выборки значение статистики сравнивается с критическим для заданного уровня значимости значением ( α-квантилем );
  • нулевую гипотезу отвергают, если значение статистики больше критического (или если вероятность получить это значение статистики ( p-значение ) меньше уровня значимости , что является эквивалентным подходом).

Проведем проверку гипотез для различных распределений.

Дискретный случай

Предположим, что два человека играют в кости. У каждого игрока свой набор костей. Игроки по очереди кидают сразу по 3 кубика. Каждый раунд выигрывает тот, кто выкинет за раз больше шестерок. Результаты записываются. У одного из игроков после 100 раундов возникло подозрение, что кости его соперника – несимметричные, т.к. тот часто выигрывает (часто выбрасывает шестерки). Он решил проанализировать насколько вероятно такое количество исходов противника.

Примечание : Т.к. кубиков 3, то за раз можно выкинуть 0; 1; 2 или 3 шестерки, т.е. случайная величина может принимать 4 значения.

Из теории вероятности нам известно, что если кубики симметричные, то вероятность выпадения шестерок подчиняется биномиальному закону . Поэтому, после 100 раундов частоты выпадения шестерок могут быть вычислены с помощью формулы =БИНОМ.РАСП(A7;3;1/6;ЛОЖЬ)*100

В формуле предполагается, что в ячейке А7 содержится соответствующее количество выпавших шестерок в одном раунде.

Примечание : Расчеты приведены в файле примера на листе Дискретное .

Для сравнения наблюденных (Observed) и теоретических частот (Expected) удобно пользоваться гистограммой .

При значительном отклонении наблюденных частот от теоретического распределения, нулевая гипотеза о распределении случайной величины по теоретическому закону, должна быть отклонена. Т.е., если игральные кости соперника несимметричны, то наблюденные частоты будут «существенно отличаться» от биномиального распределения .

В нашем случае на первый взгляд частоты достаточно близки и без вычислений сложно сделать однозначный вывод. Применим критерий согласия Пирсона Х 2 , чтобы вместо субъективного высказывания «существенно отличаться», которое можно сделать на основании сравнения гистограмм , использовать математически корректное утверждение.

Используем тот факт, что в силу закона больших чисел наблюденная частота (Observed) с ростом объема выборки n стремится к вероятности, соответствующей теоретическому закону (в нашем случае, биномиальному закону ). В нашем случае объем выборки n равен 100.

Введем тестовую статистику , которую обозначим Х 2 :

где O l – это наблюденная частота событий, что случайная величина приняла определенные допустимые значения, E l – это соответствующая теоретическая частота (Expected). L – это количество значений, которые может принимать случайная величина (в нашем случае равна 4).

Примечание : Вышеуказанная статистика является частным случаем статистики используемой для вычисления критерия независимости хи-квадрат (см. статью Критерий независимости хи-квадрат в MS EXCEL ).

Как видно из формулы, эта статистика является мерой близости наблюденных частот к теоретическим, т.е. с помощью нее можно оценить «расстояния» между этими частотами. Если сумма этих «расстояний» «слишком велика», то эти частоты «существенно отличаются». Понятно, что если наш кубик симметричный (т.е. применим биномиальный закон ), то вероятность того, что сумма «расстояний» будет «слишком велика» будет малой. Чтобы вычислить эту вероятность нам необходимо знать распределение статистики Х 2 ( статистика Х 2 вычислена на основе случайной выборки , поэтому она является случайной величиной и, следовательно, имеет свое распределение вероятностей ).

Из многомерного аналога интегральной теоремы Муавра-Лапласа известно, что при n—>∞ наша случайная величина Х 2 асимптотически распределена по закону Х 2 с L — 1 степенями свободы.

Итак, если вычисленное значение статистики Х 2 (сумма «расстояний» между частотами) будет больше чем некое предельное значение, то у нас будет основание отвергнуть нулевую гипотезу . Как и при проверке параметрических гипотез , предельное значение задается через уровень значимости . Если вероятность того, что статистика Х 2 примет значение меньше или равное вычисленному ( p -значение ), будет меньше уровня значимости , то нулевую гипотезу можно отвергнуть.

В нашем случае, значение статистики равно 22,757. Вероятность, что статистика Х 2 примет значение больше или равное 22,757 очень мала (0,000045) и может быть вычислена по формулам =ХИ2.РАСП.ПХ(22,757;4-1) или =ХИ2.ТЕСТ(Observed; Expected)

Примечание : Функция ХИ2.ТЕСТ() специально создана для проверки связи между двумя категориальными переменными (см. статью про критерий независимости ).

Вероятность 0,000045 существенно меньше обычного уровня значимости 0,05. Так что, у игрока есть все основания подозревать своего противника в нечестности ( нулевая гипотеза о его честности отвергается).

При применении критерия Х 2 необходимо следить за тем, чтобы объем выборки n был достаточно большой, иначе будет неправомочна аппроксимация Х 2 -распределением распределения статистики Х 2 . Обычно считается, что для этого достаточно, чтобы наблюденные частоты (Observed) были больше 5. Если это не так, то малые частоты объединяются в одно или присоединяются к другим частотам, причем объединенному значению приписывается суммарная вероятность и, соответственно, уменьшается число степеней свободы Х 2 -распределения .

Для того чтобы улучшить качество применения критерия Х 2 ( увеличить его мощность ), необходимо уменьшать интервалы разбиения (увеличивать L и, соответственно, увеличивать количество степеней свободы ), однако этому препятствует ограничение на количество попавших в каждый интервал наблюдений (д.б.>5).

Примечание : Рассмотренный выше пример является частным случаем применения критерия независимости хи-квадрат (chi-square test), который позволяет определить есть ли связь между двумя категориальными переменными (см. статью Критерий независимости хи-квадрат в MS EXCEL ).

СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .

Непрерывный случай

Критерий согласия Пирсона Х 2 можно применить так же в случае непрерывного распределения .

Рассмотрим некую выборку , состоящую из 200 значений. Нулевая гипотеза утверждает, что выборка сделана из стандартного нормального распределения .

Примечание : Cлучайные величины в файле примера на листе Непрерывное сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) . Поэтому, новые значения выборки генерируются при каждом пересчете листа.

Как видно из диаграммы, значения выборки довольно хорошо укладываются вдоль прямой. Однако, как и в дискретном случае для проверки гипотезы применим Критерий согласия Пирсона Х 2 .

Для этого разобьем диапазон изменения случайной величины на интервалы с шагом 0,5 стандартных отклонений . Вычислим наблюденные и теоретические частоты. Наблюденные частоты вычислим с помощью функции ЧАСТОТА() , а теоретические – с помощью функции НОРМ.СТ.РАСП() .

Примечание : Как и для дискретного случая , необходимо следить, чтобы выборка была достаточно большая, а в интервал попадало >5 значений.

Вычислим статистику Х 2 и сравним ее с критическим значением для заданного уровня значимости (0,05). Т.к. мы разбили диапазон изменения случайной величины на 10 интервалов, то число степеней свободы равно 9. Критическое значение можно вычислить по формуле =ХИ2.ОБР.ПХ(0,05;9) или =ХИ2.ОБР(1-0,05;9)

На диаграмме выше видно, что значение статистики равно 8,19, что существенно выше критического значениянулевая гипотеза не отвергается.

Ниже приведена диаграмма , на которой выборка приняла маловероятное значение и на основании критерия согласия Пирсона Х 2 нулевая гипотеза была отклонена (не смотря на то, что случайные значения были сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) , обеспечивающей выборку из стандартного нормального распределения ).

Нулевая гипотеза отклонена, хотя визуально данные располагаются довольно близко к прямой линии.

В качестве примера также возьмем выборку из непрерывного равномерного распределения U(-3; 3). В этом случае, даже из графика очевидно, что нулевая гипотеза должна быть отклонена.

Критерий согласия Пирсона Х 2 также подтверждает, что нулевая гипотеза должна быть отклонена.

Критерий независимости хи-квадрат в EXCEL

Критерий независимости хи-квадрат используется для определения связи между двумя категориальными переменными. Примерами пар категориальных переменных являются: Семейное положение vs. Уровень занятости респондента; Порода собак vs. Профессия хозяина, Уровень з/п vs. Специализация инженера и др. При вычислении критерия независимости проверяется гипотеза о том, что между переменными связи нет. Вычисления будем производить с помощью функции MS EXCEL 2010 ХИ2.ТЕСТ() и обычными формулами.

Предположим у нас есть выборка данных, представляющая результат опроса 500 человек. Людям задавалось 2 вопроса: про их семейное положение (женаты, гражданский брак, не состоят в отношениях) и их уровень занятости (полный рабочий день, частичная занятость, временно не работает, на домохозяйстве, на пенсии, учеба). Все ответы поместили в таблицу:

Данная таблица называется таблицей сопряжённости признаков (или факторной таблицей, англ. Contingency table). Элементы на пересечении строк и столбцов таблицы обычно обозначают O ij (от англ. Observed, т.е. наблюденные, фактические частоты).

Нас интересует вопрос «Влияет ли Семейное положение на Занятость?», т.е. существует ли зависимость между двумя методами классификации выборки ?

При проверке гипотез такого вида обычно принимают, что нулевая гипотеза утверждает об отсутствии зависимости способов классификации.

Рассмотрим предельные случаи. Примером полной зависимости двух категориальных переменных является вот такой результат опроса:

В этом случае семейное положение однозначно определяет занятость (см. файл примера лист Пояснение ). И наоборот, примером полной независимости является другой результат опроса:

Обратите внимание, что процент занятости в этом случае не зависит от семейного положения (одинаков для женатых и не женатых). Это как раз совпадает с формулировкой нулевой гипотезы . Если нулевая гипотеза справедлива, то результаты опроса должны были бы так распределиться в таблице, что процент занятых был бы одинаковым независимо от семейного положения. Используя это, вычислим результаты опроса, которые соответствуют нулевой гипотезе (см. файл примера лист Пример ).

Сначала вычислим оценку вероятности, того, что элемент выборки будет иметь определенную занятость (см. столбец u i ):

где с – количество столбцов (columns), равное количеству уровней переменной «Семейное положение».

Затем вычислим оценку вероятности, того, что элемент выборки будет иметь определенное семейное положение (см. строку v j ).

где r – количество строк (rows), равное количеству уровней переменной «Занятость».

Теоретическая частота для каждой ячейки E ij (от англ. Expected, т.е. ожидаемая частота) в случае независимости переменных вычисляется по формуле: E ij =n* u i * v j

Известно, что статистика Х 2 0 при больших n имеет приблизительно ХИ2-распределение с (r-1)(c-1) степенями свободы (df – degrees of freedom):

Примечание : Вышеуказанная статистика при с=1 используется для вычисления критерия согласия Пирсона ХИ-квадрат (см. статью Проверка гипотез критерием хи-квадрат Пирсона в MS EXCEL ).

Если вычисленное на основе выборки значение этой статистики «слишком большое» (больше порогового), то нулевая гипотеза отвергается. Пороговое значение вычисляется на основании уровня значимости , например с помощью формулы =ХИ2.ОБР.ПХ(0,05; df) .

Примечание : Уровень значимости обычно принимается равным 0,1; 0,05; 0,01.

При проверке гипотезы также удобно вычислять p-значение , которое мы сравниваем с уровнем значимости . p -значение рассчитывается с использованием ХИ2-распределения с (r-1)*(c-1)=df степеней свободы.

Если вероятность, того что случайная величина имеющая ХИ2-распределение с (r-1)(c-1) степенями свободы примет значение больше вычисленной статистики Х 2 0 , т.е. P (r-1)*(c-1) >Х 2 0 >, меньше уровня значимости , то нулевая гипотеза отклоняется.

В MS EXCEL p-значение можно вычислить с помощью формулы =ХИ2.РАСП.ПХ(Х 2 0 ;df) , конечно, вычислив непосредственно перед этим значение статистики Х 2 0 (это сделано в файле примера ). Однако, удобнее всего воспользоваться функцией ХИ2.ТЕСТ() . В качестве аргументов этой функции указываются ссылки на диапазоны содержащие фактические (Observed) и вычисленные теоретические частоты (Expected).

Если уровень значимости > p -значения , то означает это фактические и теоретические частоты, вычисленные из предположения справедливости нулевой гипотезы , серьезно отличаются. Поэтому, нулевую гипотезу нужно отклонить.

Использование функции ХИ2.ТЕСТ() позволяет ускорить процедуру проверки гипотез , т.к. не нужно вычислять значение статистики . Теперь достаточно сравнить результат функции ХИ2.ТЕСТ() с заданным уровнем значимости .

Примечание : Функция ХИ2.ТЕСТ() , английское название CHISQ.TEST, появилась в MS EXCEL 2010. Ее более ранняя версия ХИ2ТЕСТ() , доступная в MS EXCEL 2007 имеет тот же функционал. Но, как и для ХИ2.ТЕСТ() , теоретические частоты нужно вычислить самостоятельно.

СОВЕТ : О проверке других видов гипотез см. статью Проверка статистических гипотез в MS EXCEL .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *