
Эта тема вот уже не первый год будоражит все статистические чаты.
Проверять или не проверять количественные данные на нормальность распределения перед анализом количественных данных?
Начну с истории. Некоторые коллеги-математики и биостатистики удивляются популярности алгоритма выбора метода в зависимости от нормальности распределения в медицинских исследованиях. Возможно, мой краткий экскурс раскроет некоторые предпосылки этого явления. Сразу оговорюсь, что эта история включает мои личные оценки, как непосредственного свидетеля и участника описываемых событий.
Когда-то давным-давно в самом начале нулевых в медицинском вузе нас учили, что сравнивать количественные показатели в двух группах нужно с помощью t-критерия Стьюдента. Мы вручную рассчитывали его по формуле, а потом по таблице критических значений при уровне значимости 0.05 определяли, «достоверны» ли различия. Думаю, что эти задачи до сих пор решаются на кафедрах оргздрава или медицинской статистики.
Конечно, нам рассказывали о непараметрических (ранговых) критериях. Но только очень кратко, вскользь. То есть мы знали, что они существуют, и могут применяться в каких-то случаях вместо t-критерия Стьюдента. Но что это за случаи — нам не рассказывали. Например, в учебнике по общественному здоровью и здравоохранению Миняева и Вишнякова (изд. МедПресс-Информ), который использовался на кафедре в качестве основного учебного пособия, непараметрическим критериям была посвящена всего одна страница.
Если взять отечественные медицинские статьи и диссертации 90-х или ранних нулевых годов, в большинстве из них мы не встретим непараметрических критериев. И нормальность данных тогда никто не проверял.
В тех работах использовался алгоритм №1:
- Всегда используем параметрические методы.
И вдруг мы узнали, что, оказывается, делаем все неправильно. Оказывается, t-критерий Стьюдента, как и другие параметрические методы, можно использовать только при определенных условиях. Причем эти условия выполняются очень редко, намного реже, чем не выполняются. Среди этих условий — та самая нормальность распределения и ещё одно свойство с длинным названием «гомоскедастичность», т.е. равенство дисперсий.
В научных журналах и в интернете появилось большое число статей, где рекомендовался алгоритм №2:
- Проверяем выборочные данные на нормальность распределения какими-либо методами.
- (факультативно) При сравнении независимых групп проверяем также равенство дисперсий в группах.
- Если данные нормально распределены, используем параметрические методы.
В случае использования п.2: при равенстве дисперсий применяем t Стьюдента или F Фишера. Если дисперсии не равны — применяем t или F Уэлча.
- Если распределение отличается от нормального, используем непараметрические (ранговые) методы.
В качестве примера приведу цитаты из статьи Гржибовского А.М. и соавт., 2016 года:
«Прежде чем использовать параметрические методы статистики, исследователь должен убедиться в том, что распределение имеющихся в его распоряжении данных не отличается от нормального»;
А также из статьи Леонова В.П. 2019 года:
«Для непрерывных количественных признаков следует обязательно произвести проверку нормального распределения».
Этот алгоритм быстро завоевал доверие со стороны научного сообщества. Рецензенты и научные руководители стали требовать проверку на нормальность при анализе данных клинических исследований. До сих пор в значительном числе научных работ, в том числе публикуемых в авторитетнейших NEJM и Lancet, мы встречаем выбор статистического метода исходя из нормальности распределения. Такая популярность алгоритма №2 не позволяет пока полностью отказаться от него.
Далее мы покритикуем этот алгоритм, но вообще-то некоторый смысл в нём есть.
- Во-первых, он обращает внимание авторов на распределение данных, о котором раньше мало кто задумывался. А ведь это важная характеристика, которую непременно следует изучать при выполнении статанализа.
- Во-вторых, использование параметрических критериев при нормальном распределении почти всегда будет оптимальным выбором.
- В-третьих, в отдельных случаях отклонений от нормального распределения действительно лучше использовать ранговые методы.
- В-четвертых, условие гомоскедастичности справедливо для t-критерия Стьюдента (и, кстати, актуально и для критерия Манна-Уитни — см. наш пост про критерий Бруннера-Мюнцеля).
Интересно, что на волне роста претензий к использованию параметрических методов без проверки на нормальность распределения, в связи со сложностью и субъективностью этой проверки (что справедливо!), а также устоявшимся (неверным!) мнением, что непараметрические критерии — это то же самое, что и параметрические, но только они не требуют нормальности, появился ещё один крайний алгоритм №3:
- Всегда использовать непараметрические методы, независимо от распределения данных.
Обращаясь к статистикам, аспиранты той поры интересовались, смогут ли они рассчитать критерий Манна-Уитни или критерий Фридмана. Использование «непараметрики» избавляло от необходимости долго и сложно «пояснять за нормальность» на защите диссертации или в ответах рецензентам. И автоматически снимало все вопросы к выбору методов анализа.
На этой волне я услышал однажды от одного исследователя замечательную фразу в ответ на мое предложение использовать в его работе t-критерий Стьюдента:
— Дамир Ильдарович, так он ведь запрещен!!
Мой вопрос: кем и когда запрещен? — разумеется, остался без ответа.
Следует отметить ещё один факт, по времени совпавший с расцветом популярности непараметрических критериев: переход от табличного редактора MS Excel к полноценным статистическим программам. В стандартном Excel непараметрика, как известно, отсутствует, поэтому использование критерия Манна-Уитни или коэффициента ранговой корреляции Спирмена свидетельствовало о владении автором, например, программой STATISTICA 6.0. Результаты работы в таком случае выглядели максимально убедительно!
Продолжение следует
Добавить комментарий