Критерий хи-квадрат Пирсона

Критерий χ2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

Карл Пирсон (1857-1936)

2. Для чего используется критерий χ2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности, содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

 Исход есть (1)Исхода нет (0)Всего
Фактор риска есть (1)ABA + B
Фактор риска отсутствует (0)CDC + D
ВсегоA + CB + DA + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых — в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую — 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй — артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 — 40 = 30) а в группе некурящих — у 48 (80 — 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

 Артериальная гипертония есть (1)Артериальной гипертонии нет (0)Всего
Курящие (1)403070
Некурящие (0)324880
Всего7278150

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы — показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента — мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе…). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений «до-«после». В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение меньше 10, то для анализа лучше использовать точный критерий Фишера.
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек. В случае несоблюдения данного условия для сравнения долей можно также использовать точный критерий Фишера.

4. Как рассчитать критерий хи-квадрат Пирсона?

1. Рассчитываем ожидаемое количество наблюдений для каждой из ячеек таблицы сопряженности (при условии справедливости нулевой гипотезы об отсутствии взаимосвязи) путем перемножения сумм рядов и столбцов с последующим делением полученного произведения на общее число наблюдений. Общий вид таблицы ожидаемых значений представлен ниже:

2. Находим значение критерия χ2 по следующей формуле:

где i – номер строки (от 1 до r), j – номер столбца (от 1 до с), Oij – фактическое количество наблюдений в ячейке ij, Eij – ожидаемое число наблюдений в ячейке ij.

3. Определяем число степеней свободы по формуле: f = (r – 1) × (c – 1). Соответственно, для четырехпольной таблицы, в которой 2 ряда (r = 2) и 2 столбца (c = 2), число степеней свободы составляет f2×2 = (2 — 1)*(2 — 1) = 1.

4. Сравниваем значение критерия χ2 с критическим значением при числе степеней свободы f (по таблице).

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

 Артериальная гипертония есть (1)Артериальной гипертонии нет (0)Всего
Курящие (1)403070
Некурящие (0)324880
Всего7278150

1. Рассчитываем ожидаемые значения для каждой ячейки: 

 Артериальная гипертония есть (1)Артериальной гипертонии нет (0)Всего
Курящие (1)(70*72)/150 = 33.6(70*78)/150 = 36.470
Некурящие (0)(80*72)/150 = 38.4(80*78)/150 = 41.680
Всего7278150

2. Находим значение критерия хи-квадрат Пирсона:

χ2 = (40-33.6)2/33.6 + (30-36.4)2/36.4 + (32-38.4)2/38.4 + (48-41.6)2/41.6 = 4.396.

3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.

4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения — статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.

Таблица критических значений критерия хи-квадрат Пирсона

Число степеней свободы, fχ2 при p=0.05χ2 при p=0.01
13.8416.635
25.9919.21
37.81511.345
49.48813.277
511.0715.086
612.59216.812
714.06718.475
815.50720.09
916.91921.666
1018.30723.209
1119.67524.725
1221.02626.217
1322.36227.688
1423.68529.141
1524.99630.578
1626.29632
1727.58733.409
1828.86934.805
1930.14436.191
2031.4137.566

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Новости

  • Новая версия StatTech — 3.0

    У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.