Нормальность распределения: проверять или не проверять?

04.06.2026

Эта тема вот уже не первый год будоражит все статистические чаты.

Проверять или не проверять количественные данные на нормальность распределения перед анализом количественных данных?

Начну с истории. Некоторые коллеги-математики и биостатистики удивляются популярности алгоритма выбора метода в зависимости от нормальности распределения в медицинских исследованиях. Возможно, мой краткий экскурс раскроет некоторые предпосылки этого явления. Сразу оговорюсь, что эта история включает мои личные оценки, как непосредственного свидетеля и участника описываемых событий.

Когда-то ~~давным-давно~~ в самом начале нулевых в медицинском вузе нас учили, что сравнивать количественные показатели в двух группах нужно с помощью t-критерия Стьюдента. Мы вручную рассчитывали его по формуле, а потом по таблице критических значений при уровне значимости 0.05 определяли, «достоверны» ли различия. Думаю, что эти задачи до сих пор решаются на кафедрах оргздрава или медицинской статистики.

Конечно, нам рассказывали о непараметрических (ранговых) критериях. Но только очень кратко, вскользь. То есть мы знали, что они существуют, и могут применяться в каких-то случаях вместо t-критерия Стьюдента. Но что это за случаи — нам не рассказывали. Например, в учебнике по общественному здоровью и здравоохранению Миняева и Вишнякова (изд. МедПресс-Информ), который использовался на кафедре в качестве основного учебного пособия, непараметрическим критериям была посвящена всего одна страница.

Если взять отечественные медицинские статьи и диссертации 90-х или ранних нулевых годов, в большинстве из них мы не встретим непараметрических критериев. И нормальность данных тогда никто не проверял.

В тех работах использовался алгоритм №1:

Всегда используем параметрические методы.

И вдруг мы узнали, что, оказывается, делаем все неправильно. Оказывается, t-критерий Стьюдента, как и другие параметрические методы, можно использовать только при определенных условиях. Причем эти условия выполняются очень редко, намного реже, чем не выполняются. Среди этих условий — та самая нормальность распределения и ещё одно свойство с длинным названием «гомоскедастичность», т.е. равенство дисперсий.

В научных журналах и в интернете появилось большое число статей, где рекомендовался алгоритм №2:

Проверяем выборочные данные на нормальность распределения какими-либо методами.

(факультативно) При сравнении независимых групп проверяем также равенство дисперсий в группах.

Если данные нормально распределены, используем параметрические методы.
В случае использования п.2: при равенстве дисперсий применяем t Стьюдента или F Фишера. Если дисперсии не равны — применяем t или F Уэлча.

Если распределение отличается от нормального, используем непараметрические (ранговые) методы.

В качестве примера приведу цитаты из статьи Гржибовского А.М. и соавт., 2016 года:

«Прежде чем использовать параметрические методы статистики, исследователь должен убедиться в том, что распределение имеющихся в его распоряжении данных не отличается от нормального»;

А также из статьи Леонова В.П. 2019 года:

«Для непрерывных количественных признаков следует обязательно произвести проверку нормального распределения».

Этот алгоритм быстро завоевал доверие со стороны научного сообщества. Рецензенты и научные руководители стали требовать проверку на нормальность при анализе данных клинических исследований. До сих пор в значительном числе научных работ, в том числе публикуемых в авторитетнейших NEJM и Lancet, мы встречаем выбор статистического метода исходя из нормальности распределения. Такая популярность алгоритма №2 не позволяет пока полностью отказаться от него.

Далее мы покритикуем этот алгоритм, но вообще-то некоторый смысл в нём есть.

Во-первых, он обращает внимание авторов на распределение данных, о котором раньше мало кто задумывался. А ведь это важная характеристика, которую непременно следует изучать при выполнении статанализа.

Во-вторых, использование параметрических критериев при нормальном распределении почти всегда будет оптимальным выбором.

В-третьих, в отдельных случаях отклонений от нормального распределения действительно лучше использовать ранговые методы.

В-четвертых, условие гомоскедастичности справедливо для t-критерия Стьюдента (и, кстати, актуально и для критерия Манна-Уитни — см. наш пост про критерий Бруннера-Мюнцеля).

Интересно, что на волне роста претензий к использованию параметрических методов без проверки на нормальность распределения, в связи со сложностью и субъективностью этой проверки (что справедливо!), а также устоявшимся (неверным!) мнением, что непараметрические критерии — это то же самое, что и параметрические, но только они не требуют нормальности, появился ещё один крайний алгоритм №3:

Всегда использовать непараметрические методы, независимо от распределения данных.

Обращаясь к статистикам, аспиранты той поры интересовались, смогут ли они рассчитать критерий Манна-Уитни или критерий Фридмана. Использование «непараметрики» избавляло от необходимости долго и сложно «пояснять за нормальность» на защите диссертации или в ответах рецензентам. И автоматически снимало все вопросы к выбору методов анализа.

На этой волне я услышал однажды от одного исследователя замечательную фразу в ответ на мое предложение использовать в его работе t-критерий Стьюдента:
— Дамир Ильдарович, так он ведь запрещен!!
Мой вопрос: кем и когда запрещен? — разумеется, остался без ответа.

Следует отметить ещё один факт, по времени совпавший с расцветом популярности непараметрических критериев: переход от табличного редактора MS Excel к полноценным статистическим программам. В стандартном Excel непараметрика, как известно, отсутствует, поэтому использование критерия Манна-Уитни или коэффициента ранговой корреляции Спирмена свидетельствовало о владении автором, например, программой STATISTICA 6.0. Результаты работы в таком случае выглядели максимально убедительно!

Продолжение следует

Добавить комментарий Отменить ответ

Новости

Статистическая программа StatTech обновилась до версии 4.7

23.01.2025

Самое главное — запущена реферальная программа! С её помощью можно будет получить большие скидки на приобретение доступа к StatTech. Вплоть до 100% от её стоимости! А ещё добавлены новые инструкции — по линейной и логистической регрессии, ROC-анализу, сравнению связанных групп (анализу до-после). Подробную информацию о новых функциях читайте по этой ссылке.
Новая версия StatTech — 3.0

16.12.2022

У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.

Нормальность распределения: проверять или не проверять?

Добавить комментарий Отменить ответ

Статистическая программа StatTech обновилась до версии 4.7

Новая версия StatTech — 3.0