Продолжаем тему базовых понятий в статистике. Сегодня разберёмся со словом «показатель», которое вроде бы так обыденно для описания любого исследования, но в то же время имеет много нюансов, крайне важных для статистического анализа данных.
Что такое показатель?
Это результат определения, измерения или вычисления какого-либо явления, признака. В статистике слово может использоваться двояко:
- как характеристика объекта (пациента), которую мы будем анализировать, например, возраст, пол, артериальное давление;
- как результат статистического анализа, например, средний показатель, медиана, коэффициент корреляции.
В этом посте мы будем говорить о показателях только как о характеристиках пациентов. Кстати, у «показателя» есть синоним, который используется только в этом смысле и который мы очень часто используем — это слово «переменная».
Есть ещё близкое слово «варианта», но оно означает конкретное значение показателя.
Например, «при измерении уровня боли по ВАШ в группе исследуемых чаще всего встречалась варианта, равная 6 баллам».
Слово «варианта» встречается редко в статьях или диссертациях, но часто — в статистических обсуждениях.
Какие бывают показатели?
Существуют несколько систем классификации (типологии) показателей. Наиболее распространена типология, предложенная в 1946 году психологом Стэнли Смитом Стивенсом (Stanley Smith Stevens). Он выделил 4 типа шкал измерения:
- Номинальная (Nominal) — значения этих показателей представляют собой отдельные категории, к которым принадлежат исследуемые.
Например, к номинальным показателям относится «Наличие ИБС», который принимает 2 возможных значения: больной или здоровый.
- Порядковая (Ordinal) — значения представлены уровнями показателя, которые могут быть упорядочены по возрастанию или убыванию.
Например, «Степень артериальной гипертонии», имеющая значения от 1 до 3: чем больше, тем выше АД.
- Интервальная (Interval) — значения также представлены упорядоченными уровнями, при этом в отличие от порядковой шкалы различия между соседними значениями одинаковы по всей шкале.
Например, к этому типу относится «Температура тела», измеренная в градусах Цельсия, или любые даты.
- Шкала отношений (Ratio) — в наибольшей степени соответствует нашему пониманию количественного показателя. Имеет абсолютное нулевое значение, от которого отсчитывается, и единицы измерения.
Например, по шкале отношений измеряются артериальное давление, масса тела, возраст и т.д.
Данная классификация — не единственная. Различные исследователи, среди которых Mosteller, Tukey, Chrisman и другие, предлагали свои варианты типологии показателей. В основном, все они связаны с увеличением количества вариантов шкал измерения, чтобы охватить максимальное число явлений.
Однако эти классификации могут быть избыточными, если речь идёт только о статистическом анализе показателей. Скажем, переменные, измеренные по интервальной шкале по Стивенсу, либо напрямую вообще не анализируются (например, если речь идёт о датах), либо анализируются так же, как порядковые или измеренные по шкале отношений.
Кроме того, в практике анализа данных встречаются ситуации, когда номинальные данные мы рассматриваем как порядковые (например, образование или социальный статус). Или количественные представляем как номинальные (одно- или двусторонняя пневмония — анализируется как номинальный признак, хотя мы измеряем число поражённых легких).
Поэтому при статистической обработке данных и, в особенности, для выбора статистического метода, мы можем использовать более простую классификацию. В ней всего 2 типа показателей:
- Количественные — представляют результат измерения величины явления, выражаются числовыми значениями с большим количеством вариантов, чаще всего имеют единицу измерения. Соответствуют шкале отношений и интервальной шкале по типологии Стивенса.
Дополнительно количественные показатели можно разделить исходя из распределения на:
- нормально распределённые,
- имеющие распределение, отличное от нормального.
- Категориальные — признаки, разделяющие исследуемых по разным категориям. Соответствуют номинальной шкале по типологии Стивенса. У категориальных признаков обычно небольшое число вариантов значений (категорий), отсутствуют единицы измерения.
В зависимости от числа категорий этот тип можно разделить на:
- Бинарные показатели — только с 2 категориями: например, пол по старой классификации ВОЗ (мужской/женский) или наличие ИБС (наличие/отсутствие).
- Мультиномиальные показатели — с 3 и более значениями. Например, локализация опухоли желудка (кардиальный отдел/дно/тело/привратник) или вид лечения (схема 1/ схема 2/ схема 3).
- Ну а если значения мультиномиального показателя можно упорядочить по возрастанию или убыванию, мы назовём такие переменные порядковыми, или ранговыми. Порядковые переменные в большинстве случаев анализируются как категориальные, реже — как количественные. Только некоторые методы, например, порядковая логистическая регрессия или определённые меры эффекта специально предназначены для анализа порядковых показателей.

Почему такую классификацию показателей я считаю оптимальной? Она позволяет легко и просто определить метод описания или анализа данных. Вот краткая инструкция по применению классификации:
Количественные показатели:
- описываются средним значением со стандартным отклонением или медианой с интерквартильным размахом,
- сравниваются в зависимости от бинарного категориального показателя с помощью t-критерия Стьюдента, U-критерия Манна-Уитни или аналогов,
- сравниваются в зависимости от мультиномиального категориального показателя с помощью однофакторного дисперсионного анализа или H-критерия Краскела-Уоллиса,
- сравниваются в динамике на 2 этапах с помощью парного t-критерия Стьюдента или T-критерия Уилкоксона,
- сравниваются в динамике на 3+ этапах с помощью дисперсионного анализа с повторными измерениями или критерия Фридмана,
- сопоставляются с количественным показателем с помощью корреляционного анализа,
- прогнозируются в зависимости от количественных факторов с помощью линейной или нелинейной регрессии,
- прогнозируются в зависимости от любых факторов с помощью общей линейной модели.
Бинарные категориальные показатели:
- описываются абсолютным числом исследуемых и процентными долями,
- сравниваются в зависимости от бинарного категориального показателя с помощью критерия хи-квадрат Пирсона или точного критерия Фишера, отношения шансов или относительного риска,
- сравниваются в зависимости от мультиномиального категориального показателя с помощью критерия хи-квадрат Пирсона или точного критерия Фишера,
- сравниваются в динамике на 2 этапах с помощью теста МакНемара,
- сравниваются в динамике на 3+ этапах с помощью Q-критерия Кохрена,
- прогнозируются в зависимости от одного количественного фактора с помощью ROC-анализа,
- прогнозируются в зависимости от 2+ количественных факторов с помощью дискриминантного анализа,
- прогнозируются в зависимости от любых факторов с помощью бинарной логистической регрессии.
Мультиномиальные категориальные показатели:
- описываются абсолютным числом исследуемых и процентными долями,
- сравниваются в зависимости от категориального показателя с помощью критерия хи-квадрат Пирсона или точного критерия Фишера,
- сравниваются в динамике только порядковые переменные — так же, как и количественные,
- прогнозируются в зависимости от количественных факторов с помощью дискриминантного анализа,
- порядковые переменные прогнозируются в зависимости от любых факторов с помощью порядковой логистической регрессии.
Как видим, нашей классификации вполне достаточно для решения важной задачи — выбора метода статистического анализа.
Добавить комментарий