Доля, частота и риск, или о чем говорят %

16.12.2023

Поговорим о показателях, которые выражаются в %. Задумывались ли Вы, что термины «риск», «частота» и «доля» — имеют разный смысл, несмотря на то, что все они измеряются в %? Разберёмся, что означает каждый показатель, для чего используется и как интерпретируется.

Логично, что все показатели в процентах рассчитываются по одной и той же формуле:

часть / целое * 100%

Однако результат будет называться по-разному, в зависимости от того, по какому признаку выделена эта часть из целого.

Доля

Этот показатель получается, когда мы говорим о структуре, распределении. В этом случае изучаемый признак — категориальный, причём категории равнозначны между собой. Признак может быть как мультиномиальным (то есть иметь 3 и более значений), так и бинарным (с 2 значениями). И мы определяем отношение численности каждой категории к общему числу исследуемых.

👉 Например, мы хотим описать распределение по полу выборки, в которой 30 мужчин и 20 женщин. Пол — категориальный бинарный признак со значениями: «мужской» и «женский». Категории равнозначны, мы не выделяем одну из них. Значит, показывая процент мужчин и женщин в группе, мы говорим о процентной доле мужчин или женщин.

Заключение: при изучении распределения выборки по полу, доля мужчин составила 60%, доля женщин — 40%.

Частота

В этом случае перед нами также категориальный показатель. Чаще — бинарный, чем мультиномиальный. Главным отличием от расчёта долей является неравнозначность категорий. Одна из категорий назначается целевой, обычно это наличие какого-то признака, симптома, фактора, исхода. Другая (другие) — базовая, обычно это отсутствие признака, симптома, фактора, исхода.

При изучении общественного здоровья понятия доли и частоты четко дифференцируются. Доля, уже разобранная нами, называется экстенсивным показателем, частота — интенсивным. В случае интенсивных показателей мы рассчитываем процентное соотношение событий (целевая категория) к общему числу исследуемых, называемых при этом средой. Интенсивные показатели — это рождаемость (частота рождений), смертность (частота смертей), заболеваемость (частота заболеваний) и т.д.

👉 Например, мы описываем группу по наличию курения. Из 200 человек курили 50. Данный признак бинарный: наличие курения — это целевая категория, а отсутствие курения — базовая категория. Разделив число курящих на общее число исследуемых в группе и умножив на 100%, мы получим частоту курения:

50 / 200 * 100% = 25%

При этом, в отличие от процентных долей, частота базовой категории, например, отсутствия курения — обычно не рассчитывается и не указывается, так как нас интересует только целевая категория.

Риск

Наконец, разберёмся с риском. Этот показатель также можно выразить в %. И рассчитывается он, как и частота, для бинарного события, имеющего целевую категорию. Однако есть очень важные отличия от частоты.

Прежде всего, риск — это не фактическая, а предполагаемая частота события. То есть отвечает на вопрос: какой будет частота события, если мы проведём эксперимент в определённых условиях.
Риск — расчетное, а не эмпирическое значение. Однако, если нам известна частота события для определенной категории пациентов, то предполагаемый риск будет иметь то же значение.

Например, среди 400 курящих мужчин в возрасте от 45 до 49 лет — 40 гипертоников, т.е. фактическая частота гипертонии составляет:

40 / 400 * 100% = 10%

И таким же будет предполагаемый риск гипертонии среди курящих мужчин в возрасте 45-49 лет — те же 10%. Ведь других данных у нас и нет.

Чтобы рассчитать риск события для целевой категории пациентов, у которых частота события напрямую не определялась, нам понадобятся данные о частоте события среди пациентов базовой категории, а также информация о том, во сколько раз риск при целевой категории выше или ниже, чем при базовой (этот показатель называется относительным риском).

Например, мы знаем, что частота гипертонии среди некурящих мужчин определённого возраста — 20%. Относительный риск гипертонии у курящих мужчин по сравнению с некурящими — 1,5 (другими словами, курение увеличивает риск гипертонии в 1,5 раза). Теперь можно рассчитать риск гипертонии у курящих мужчин того же возраста:

20% * 1,5 = 30%

В более сложных ситуациях, например, при изучении нескольких факторов риска, мы можем построить прогностическую модель. Это специальное уравнение, которое позволит рассчитать риск события для пациента с любым набором факторов.

Слово «риск» логично смотрится при описании негативных, нежелательных событий: болезнь, смерть, рецидив, осложнение… Для предполагаемой частоты благоприятных событий, например, ремиссии или достижения терапевтического эффекта, можно использовать слово «вероятность». Вероятность — это также предполагаемая частота события, рассчитанная для генеральной совокупности, исходя из фактической частоты событий в выборочной совокупности.

Добавить комментарий Отменить ответ

Новости

Статистическая программа StatTech обновилась до версии 4.7

23.01.2025

Самое главное — запущена реферальная программа! С её помощью можно будет получить большие скидки на приобретение доступа к StatTech. Вплоть до 100% от её стоимости! А ещё добавлены новые инструкции — по линейной и логистической регрессии, ROC-анализу, сравнению связанных групп (анализу до-после). Подробную информацию о новых функциях читайте по этой ссылке.
Новая версия StatTech — 3.0

16.12.2022

У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.