Нормальность распределения: проверять или не проверять?

Эта тема вот уже не первый год будоражит все статистические чаты.

Проверять или не проверять количественные данные на нормальность распределения перед анализом количественных данных?

Начну с истории. Некоторые коллеги-математики и биостатистики удивляются популярности алгоритма выбора метода в зависимости от нормальности распределения в медицинских исследованиях. Возможно, мой краткий экскурс раскроет некоторые предпосылки этого явления. Сразу оговорюсь, что эта история включает мои личные оценки, как непосредственного свидетеля и участника описываемых событий.

Когда-то давным-давно в самом начале нулевых в медицинском вузе нас учили, что сравнивать количественные показатели в двух группах нужно с помощью t-критерия Стьюдента. Мы вручную рассчитывали его по формуле, а потом по таблице критических значений при уровне значимости 0.05 определяли, «достоверны» ли различия. Думаю, что эти задачи до сих пор решаются на кафедрах оргздрава или медицинской статистики.

Конечно, нам рассказывали о непараметрических (ранговых) критериях. Но только очень кратко, вскользь. То есть мы знали, что они существуют, и могут применяться в каких-то случаях вместо t-критерия Стьюдента. Но что это за случаи — нам не рассказывали. Например, в учебнике по общественному здоровью и здравоохранению Миняева и Вишнякова (изд. МедПресс-Информ), который использовался на кафедре в качестве основного учебного пособия, непараметрическим критериям была посвящена всего одна страница.

Если взять отечественные медицинские статьи и диссертации 90-х или ранних нулевых годов, в большинстве из них мы не встретим непараметрических критериев. И нормальность данных тогда никто не проверял.

В тех работах использовался алгоритм №1:

  • Всегда используем параметрические методы.

И вдруг мы узнали, что, оказывается, делаем все неправильно. Оказывается, t-критерий Стьюдента, как и другие параметрические методы, можно использовать только при определенных условиях. Причем эти условия выполняются очень редко, намного реже, чем не выполняются. Среди этих условий — та самая нормальность распределения и ещё одно свойство с длинным названием «гомоскедастичность», т.е. равенство дисперсий.

В научных журналах и в интернете появилось большое число статей, где рекомендовался алгоритм №2:

  • Проверяем выборочные данные на нормальность распределения какими-либо методами.
  •  (факультативно) При сравнении независимых групп проверяем также равенство дисперсий в группах.
  •  Если данные нормально распределены, используем параметрические методы.
    В случае использования п.2: при равенстве дисперсий применяем t Стьюдента или F Фишера. Если дисперсии не равны — применяем t или F Уэлча.
  • Если распределение отличается от нормального, используем непараметрические (ранговые) методы.

В качестве примера приведу цитаты из статьи Гржибовского А.М. и соавт., 2016 года:

«Прежде чем использовать параметрические методы статистики, исследователь должен убедиться в том, что распределение имеющихся в его распоряжении данных не отличается от нормального»;

А также из статьи Леонова В.П. 2019 года:

«Для непрерывных количественных признаков следует обязательно произвести проверку нормального распределения».

Этот алгоритм быстро завоевал доверие со стороны научного сообщества. Рецензенты и научные руководители стали требовать проверку на нормальность при анализе данных клинических исследований. До сих пор в значительном числе научных работ, в том числе публикуемых в авторитетнейших NEJM и Lancet, мы встречаем выбор статистического метода исходя из нормальности распределения. Такая популярность алгоритма №2 не позволяет пока полностью отказаться от него.

Далее мы покритикуем этот алгоритм, но вообще-то некоторый смысл в нём есть.

  • Во-первых, он обращает внимание авторов на распределение данных, о котором раньше мало кто задумывался. А ведь это важная характеристика, которую непременно следует изучать при выполнении статанализа.
  • Во-вторых, использование параметрических критериев при нормальном распределении почти всегда будет оптимальным выбором.
  • В-третьих, в отдельных случаях отклонений от нормального распределения действительно лучше использовать ранговые методы.

Интересно, что на волне роста претензий к использованию параметрических методов без проверки на нормальность распределения, в связи со сложностью и субъективностью этой проверки (что справедливо!), а также устоявшимся (неверным!) мнением, что непараметрические критерии — это то же самое, что и параметрические, но только они не требуют нормальности, появился ещё один крайний алгоритм №3:

  • Всегда использовать непараметрические методы, независимо от распределения данных.

Обращаясь к статистикам, аспиранты той поры интересовались, смогут ли они рассчитать критерий Манна-Уитни или критерий Фридмана. Использование «непараметрики» избавляло от необходимости долго и сложно «пояснять за нормальность» на защите диссертации или в ответах рецензентам. И автоматически снимало все вопросы к выбору методов анализа.

На этой волне я услышал однажды от одного исследователя замечательную фразу в ответ на мое предложение использовать в его работе t-критерий Стьюдента:
Дамир Ильдарович, так он ведь запрещен!!
Мой вопрос: кем и когда запрещен? — разумеется, остался без ответа.

Следует отметить ещё один факт, по времени совпавший с расцветом популярности непараметрических критериев: переход от табличного редактора MS Excel к полноценным статистическим программам. В стандартном Excel непараметрика, как известно, отсутствует, поэтому использование критерия Манна-Уитни или коэффициента ранговой корреляции Спирмена свидетельствовало о владении автором, например, программой STATISTICA 6.0. Результаты работы в таком случае выглядели максимально убедительно!

Продолжение следует

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Новости

  • Статистическая программа StatTech обновилась до версии 4.7

    Самое главное — запущена реферальная программа! С её помощью можно будет получить большие скидки на приобретение доступа к StatTech. Вплоть до 100% от её стоимости! А ещё добавлены новые инструкции — по линейной и логистической регрессии, ROC-анализу, сравнению связанных групп (анализу до-после). Подробную информацию о новых функциях читайте по этой ссылке.


  • Новая версия StatTech — 3.0

    У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.