
Чем же нас не устраивает алгоритм №2? Тот, который предлагает выбирать критерий исходя из нормальности распределения? К сожалению, для критики есть серьезные основания, подробно представленные в многочисленных источниках.
1. При достаточно большом числе наблюдений t-критерий Стьюдента, дисперсионный анализ, ковариационный анализ, линейная регрессия устойчивы к отсутствию нормальности распределения.
Стьюдент в своей знаменитой статье “The probable error of a mean” (1908) описал t-критерий исходя из допущения о том, что в популяции показатель имел нормальное распределение. При таком допущении t-критерий является точным тестом и может использоваться для анализа даже небольших выборок.
Но при достаточно большом числе наблюдений t-критерий можно рассматривать как консервативную форму z-теста, не имеющего допущений по форме распределения.
Это подтверждается многочисленными симуляциями, где t-критерий применяли к очень ненормально распределенным данным и всё равно получали корректные выводы о различиях средних значений (справедливости ради отметим, что сценарии, где t-критерий не будет работать, также существуют).
То же относится и к дисперсионному анализу и линейной регрессии. Позволю себе процитировать Norman G., рассмотревшего в своей статье устойчивость ANOVA к нарушениям различных допущений: «Parametric statistics can be used with Likert data, with small sample sizes, with unequal variances, and with non-normal distributions, with no fear of ‘‘coming to the wrong conclusion’’.»
Какие авторы пишут об этом: Feir-Walsh and Toothaker (1974), Driscoll (1996), Scovlund and Fenstad (2001), Fay and Proschan (2010), Norman (2010), Rash et al. (2011), Fagerland (2012), Lumley et al. (2012), Blanca et al. (2023).
2. Нормальность распределения трудно оценить объективно.
Особенно это актуально для небольшого числа наблюдений. Используемые для оценки нормальности критерии, такие как популярный и рекомендуемый многими авторами критерий Шапиро-Уилка, на малых выборках имеют слишком низкую мощность и могут подтверждать нормальность даже если её нет. Обратная проблема возникает при большом числе наблюдений, когда даже малозначимые отклонения от нормальности сопровождаются выводом об отсутствии нормальности.
Ряд авторов рекомендует использовать для проверки на нормальность графические методы, т.е. визуальное изучение гистограммы или квантильной диаграммы (QQ-plot), но этот подход тоже недостаточно точен. Другими словами, объективная оценка нормальности распределения — слишком сложная задача.
Какие авторы пишут об этом:
Garcia-Perez (2012), Rochon et al. (2012), Kozak and Piepho (2017)
3. Параметрические и непараметрические критерии не являются взаимозаменяемыми — они решают разные задачи и отвечают на разные вопросы.
Представьте, что нам нужно завернуть шуруп. Но сделать это отверткой затруднительно, например, из-за сбитых шлицов на головке шурупа. И тогда нам предлагают воспользоваться молотком. Конечно, можно забить им шуруп, вот только держаться он будет плохо. Молоток — для гвоздей, отвертка — для шурупов.
Так же, как молоток не заменит отвертку, непараметрические критерии не заменят параметрические, в связи с тем, что проверяют разные гипотезы. Например, t-критерий Стьюдента проверяет, отличаются ли друг от друга средние значения. А непараметрический критерий Манна-Уитни — то, что вероятность бОльших значений в одной из выборок выше, чем в другой.
- В тех исследованиях, где важно доказать, что именно средний уровень показателя в одной из групп выше или ниже — мы практически всегда будем использовать t-критерий.
- Но иногда нас в меньшей степени интересуют средние значения или их разность, мы бы хотели доказать, что в одной из групп чаще встречаются более высокие значения. В таких случаях мы можем сразу предпочесть критерий Манна-Уитни.
Какие авторы пишут об этом:
Sawilowski and Shlomo (2005), Fay and Proschan (2010), Fagerland (2012), Lumley et al. (2012)
4. Выбор критерия исходя из параметров собранных данных противоречит принципам предварительного планирования дизайна исследования.
В этом случае для нас открывается возможность манипуляций. Например, если с помощью t-критерия Стьюдента не будут получены желаемые различия, можно отказаться от мнения о нормальности распределения и испытать другие критерии: Манна-Уитни, ван дер Вардена, Вальда-Вольфовица, медианный тест Муда и др. Авось где-то p опустится ниже заветных 0.05 и можно будет сделать вывод, что эффект достигнут. Такой подход относится к нежелательному и порицаемому явлению под названием «p-hacking». Надежным средством против него является четкое указание в протоколе, публикуемом до набора данных, какие гипотезы планируется проверять и с помощью каких методов.Интересно, что даже выбор программы — совсем уже нестатистический фактор! — может повлиять на результаты сравнения. Ведь доступные в одних программах критерии могут отсутствовать в других, что неизбежно приводит к различиям в выводах. Пример такой ситуации с использованием SPSS и Minitab приводят Pearce and Derrick (2019).
Выбирая метод анализа на этапе планирования исследований, можно сослаться на Аддендум по эстимандам к руководству по статистическим принципам для клинических испытаний (ICH E9(R1)). В нем сказано, что эстиманды (оцениваемый эффект, например, разность средних) с основными эстиматорами (метод оценивания, например, t-критерий Стьюдента) должны определяться заранее, на этапе планирования исследования. При этом, конечно, учитываются предположения о популяции и изучаемом параметре, а в случае выявления отклонений от предположений рекомендуется выполнять анализ чувствительности.
Также про опасность манипуляций с выводом можно прочитать у Fay and Proschan (2010).
5. Использование предварительного тестирования допущений применения статистических методов, таких как нормальность или равенство дисперсий, создает проблемы с контролем ошибок I и II типа.
То есть помимо ошибок проверки статистических гипотез, совершаемых при использовании конкретного метода, которые обычно успешно контролируются самим методом, мы сталкиваемся с вероятностью ошибок, связанных с проверкой допущений. В результате мы можем получить p-значения, значительно отличающиеся от реальных. А может и незначительно… В общем, проверка допущений делает статистический вывод неопределенным.Какие авторы пишут об этом:
Zimmerman (2004), Wells and Hintze (2007), Rochan et al. (2012), Garcia-Perez (2012)
6. В случае предполагаемых нарушений допущений статистических тестов (если они все-таки важны), сразу использовать такие методы, которые устойчивы к этим допущениям.
Например, при сомнениях в целесообразности сравнения средних значений можно без каких-либо предварительных проверок отказаться от t-теста в пользу ранговых методов.Такую рекомендацию в отношении разных параметрических методов можно встретить в работах:
Wells and Hintze (2007), Fagerland (2012), Lantz (2013), Derrick et al. (2017).
Данный принцип также относится к проверке гомоскедастичности (равенства дисперсий). Это допущение является важным при использовании параметрических методов: классического t-теста или F-теста, post-hoc критерия Тьюки, а также непараметрического критерия Манна-Уитни. У каждого из них есть аналоги, устойчивые к нарушению данного допущения: соответственно, t-тест и F-тест Уэлча, тест Геймса-Хауэлла, критерий Бруннера-Мюнцеля. Рекомендуется по умолчанию использовать именно эти аналоги без проверки равенства дисперсий. Симуляции показывают их надежность как при гетеро-, так и при гомоскедастичности.
О предпочтительном использовании теста Уэлча пишут:
Zimmerman (2004), Rash et al. (2011), West (2021).
О предпочтительном использовании критерия Бруннера-Мюнцеля:
Karch (2023), Noguchi at al. (2021), Nowak et al. (2022).
О предпочтительном использовании критерия Геймса-Хауэлла:
Keselman and Rogan (1978).
Все ссылки на упомянутые в этом посте источники, которые могут пригодиться для подготовки ответов рецензентам и для более глубокого погружения в эту тему:
Student. The probable error of a mean. Biometrika. 6 (1): 1–25. March 1908.
Добавить комментарий