Нормальность распределения: проверять или не проверять? Продолжение

Чем же нас не устраивает алгоритм №2? Тот, который предлагает выбирать критерий исходя из нормальности распределения? К сожалению, для критики есть серьезные основания, подробно представленные в многочисленных источниках.

1. При достаточно большом числе наблюдений t-критерий Стьюдента, дисперсионный анализ, ковариационный анализ, линейная регрессия устойчивы к отсутствию нормальности распределения.
Стьюдент в своей знаменитой статье “The probable error of a mean” (1908) описал t-критерий исходя из допущения о том, что в популяции показатель имел нормальное распределение. При таком допущении t-критерий является точным тестом и может использоваться для анализа даже небольших выборок.
Но при достаточно большом числе наблюдений t-критерий можно рассматривать как консервативную форму z-теста, не имеющего допущений по форме распределения.

    Это подтверждается многочисленными симуляциями, где t-критерий применяли к очень ненормально распределенным данным и всё равно получали корректные выводы о различиях средних значений (справедливости ради отметим, что сценарии, где t-критерий не будет работать, также существуют).

    То же относится и к дисперсионному анализу и линейной регрессии. Позволю себе процитировать Norman G., рассмотревшего в своей статье устойчивость ANOVA к нарушениям различных допущений: «Parametric statistics can be used with Likert data, with small sample sizes, with unequal variances, and with non-normal distributions, with no fear of ‘‘coming to the wrong conclusion’’.»

    Какие авторы пишут об этом: Feir-Walsh and Toothaker (1974), Driscoll (1996), Scovlund and Fenstad (2001), Fay and Proschan (2010), Norman (2010), Rash et al. (2011), Fagerland (2012), Lumley et al. (2012), Blanca et al. (2023).

    2. Нормальность распределения трудно оценить объективно.
    Особенно это актуально для небольшого числа наблюдений. Используемые для оценки нормальности критерии, такие как популярный и рекомендуемый многими авторами критерий Шапиро-Уилка, на малых выборках имеют слишком низкую мощность и могут подтверждать нормальность даже если её нет. Обратная проблема возникает при большом числе наблюдений, когда даже малозначимые отклонения от нормальности сопровождаются выводом об отсутствии нормальности.
    Ряд авторов рекомендует использовать для проверки на нормальность графические методы, т.е. визуальное изучение гистограммы или квантильной диаграммы (QQ-plot), но этот подход тоже недостаточно точен. Другими словами, объективная оценка нормальности распределения — слишком сложная задача.

    Какие авторы пишут об этом:

     Garcia-Perez (2012), Rochon et al. (2012), Kozak and Piepho (2017)

    3. Параметрические и непараметрические критерии не являются взаимозаменяемыми — они решают разные задачи и отвечают на разные вопросы.
    Представьте, что нам нужно завернуть шуруп. Но сделать это отверткой затруднительно, например, из-за сбитых шлицов на головке шурупа. И тогда нам предлагают воспользоваться молотком. Конечно, можно забить им шуруп, вот только держаться он будет плохо. Молоток — для гвоздей, отвертка — для шурупов.

    Так же, как молоток не заменит отвертку, непараметрические критерии не заменят параметрические, в связи с тем, что проверяют разные гипотезы. Например, t-критерий Стьюдента проверяет, отличаются ли друг от друга средние значения. А непараметрический критерий Манна-Уитни — то, что вероятность бОльших значений в одной из выборок выше, чем в другой.

    • В тех исследованиях, где важно доказать, что именно средний уровень показателя в одной из групп выше или ниже — мы практически всегда будем использовать t-критерий.
    • Но иногда нас в меньшей степени интересуют средние значения или их разность, мы бы хотели доказать, что в одной из групп чаще встречаются более высокие значения. В таких случаях мы можем сразу предпочесть критерий Манна-Уитни.

    Какие авторы пишут об этом:

    Sawilowski and Shlomo (2005), Fay and Proschan (2010), Fagerland (2012), Lumley et al. (2012)

    4. Выбор критерия исходя из параметров собранных данных противоречит принципам предварительного планирования дизайна исследования.
    В этом случае для нас открывается возможность манипуляций. Например, если с помощью t-критерия Стьюдента не будут получены желаемые различия, можно отказаться от мнения о нормальности распределения и испытать другие критерии: Манна-Уитни, ван дер Вардена, Вальда-Вольфовица, медианный тест Муда и др. Авось где-то p опустится ниже заветных 0.05 и можно будет сделать вывод, что эффект достигнут. Такой подход относится к нежелательному и порицаемому явлению под названием «p-hacking». Надежным средством против него является четкое указание в протоколе, публикуемом до набора данных, какие гипотезы планируется проверять и с помощью каких методов.

    Интересно, что даже выбор программы — совсем уже нестатистический фактор! — может повлиять на результаты сравнения. Ведь доступные в одних программах критерии могут отсутствовать в других, что неизбежно приводит к различиям в выводах. Пример такой ситуации с использованием SPSS и Minitab приводят Pearce and Derrick (2019).

    Выбирая метод анализа на этапе планирования исследований, можно сослаться на Аддендум по эстимандам к руководству по статистическим принципам для клинических испытаний (ICH E9(R1)). В нем сказано, что эстиманды (оцениваемый эффект, например, разность средних) с основными эстиматорами (метод оценивания, например, t-критерий Стьюдента) должны определяться заранее, на этапе планирования исследования. При этом, конечно, учитываются предположения о популяции и изучаемом параметре, а в случае выявления отклонений от предположений рекомендуется выполнять анализ чувствительности.

    Также про опасность манипуляций с выводом можно прочитать у Fay and Proschan (2010).

    5. Использование предварительного тестирования допущений применения статистических методов, таких как нормальность или равенство дисперсий, создает проблемы с контролем ошибок I и II типа.
    То есть помимо ошибок проверки статистических гипотез, совершаемых при использовании конкретного метода, которые обычно успешно контролируются самим методом, мы сталкиваемся с вероятностью ошибок, связанных с проверкой допущений. В результате мы можем получить p-значения, значительно отличающиеся от реальных. А может и незначительно… В общем, проверка допущений делает статистический вывод неопределенным.

    Какие авторы пишут об этом:

    Zimmerman (2004), Wells and Hintze (2007), Rochan et al. (2012), Garcia-Perez (2012)

    6. В случае предполагаемых нарушений допущений статистических тестов (если они все-таки важны), сразу использовать такие методы, которые устойчивы к этим допущениям.
    Например, при сомнениях в целесообразности сравнения средних значений можно без каких-либо предварительных проверок отказаться от t-теста в пользу ранговых методов.

    Такую рекомендацию в отношении разных параметрических методов можно встретить в работах:

     Wells and Hintze (2007), Fagerland (2012), Lantz (2013), Derrick et al. (2017).

    Данный принцип также относится к проверке гомоскедастичности (равенства дисперсий). Это допущение является важным при использовании параметрических методов: классического t-теста или F-теста, post-hoc критерия Тьюки, а также непараметрического критерия Манна-Уитни. У каждого из них есть аналоги, устойчивые к нарушению данного допущения: соответственно, t-тест и F-тест Уэлча, тест Геймса-Хауэлла, критерий Бруннера-Мюнцеля. Рекомендуется по умолчанию использовать именно эти аналоги без проверки равенства дисперсий. Симуляции показывают их надежность как при гетеро-, так и при гомоскедастичности.

    О предпочтительном использовании теста Уэлча пишут:

     Zimmerman (2004), Rash et al. (2011), West (2021).

    О предпочтительном использовании критерия Бруннера-Мюнцеля:

     Karch (2023), Noguchi at al. (2021), Nowak et al. (2022).

    О предпочтительном использовании критерия Геймса-Хауэлла:

     Keselman and Rogan (1978).

    Все ссылки на упомянутые в этом посте источники, которые могут пригодиться для подготовки ответов рецензентам и для более глубокого погружения в эту тему:

    Addendum on estimands and sensitivity analysis on clinical trials to the Guideline on statistical principles for clinical trials — E9 (R1) / International Council for Harmonisation on Technical Requirements for Pharmaceuticals for Human Use (ICH). 2019.

    Blanca MJ, Arnau J, García-Castro FJ, Alarcón R, Bono R. Non-normal Data in Repeated Measures ANOVA: Impact on Type I Error and Power. Psicothema. 2023 Feb;35(1):21-29.

    Brunner Е. and Munzel U. The Nonparametric Behrens-Fisher Problem: Asymptotic Theory and a Small-Sample Approximation. Biometrical Journal 42 (2000) 1, 17-25.

    Derrick, B., A. Broad, D. Toher, D. and P. White (2017). The impact of an extreme
    observation in a paired samples design. Metodološki Zvezki – Advances in Methodology and Statistics, 14 (2), 1–17
    .

    Driscoll, W. C. Robustness of the ANOVA and Tukey-Kramer Statistical Tests. Computers & Industrial Engineering 1996, 31 (1–2), 265–268.

    Fagerland MW. t-tests, non-parametric tests, and large studies—a paradox of statistical practice? BMC Med Res Methodol. 2012 Jun 14;12:78.

    Fay MP, Proschan MA. Wilcoxon-Mann-Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules. Stat Surv. 2010;4:1-39.

    Feir-Walsh, B. J.; Toothaker, L. E. An Empirical Comparison of the Anova F-Test, Normal Scores Test and Kruskal-Wallis Test Under Violation of Assumptions. Educational and Psychological Measurement 1974, 34 (4), 789–799.

    Karch JD. bmtest: A Jamovi Module for Brunner–Munzel’s Test—A Robust Alternative to Wilcoxon–Mann–Whitney’s Test. Psych 2023, 5(2), 386-395.

    Keselman, H. J.; Rogan, J. C. A Comparison of the Modified-Tukey and Scheffé Methods of Multiple Comparisons for Pairwise Contrasts. Journal of the American Statistical Association 1978, 73 (361), 47–52.

    Kozak, M.; Piepho, H. ‐P. What’s Normal Anyway? Residual Plots Are More Telling than Significance Tests When Checking ANOVA Assumptions. Journal of Agronomy and Crop Science 2017, 204 (1), 86–98.

    Lantz B. The impact of sample non-normality on ANOVA and alternative methods. Br J Math Stat Psychol. 2013

    Lumley T, Diehr P, Emerson S, Chen L. The importance of the normality assumption in large public health data sets. Annu Rev Public Health. 2002;23:151-69.

    Noguchi K, Konietschke F, Marmolejo-Ramos F, Pauly M. Permutation tests are robust and powerful at 0.5% and 5% significance levels. Behav Res Methods. 2021 Dec;53(6):2712-2724.

    Norman G. Likert scales, levels of measurement and the ‘‘laws’’ of statistics. Adv Health Sci Educ Theory Pract. 2010. Dec;15(5):625-32.

    Nowak Claus P., Pauly Markus, Brunner Edgar. THE NONPARAMETRIC BEHRENS FISHER PROBLEM IN SMALL SAMPLES. arXiv:2208.01231v1 [stat.ME] 2 Aug 2022.

    Pearce J, Derrick B. Preliminary Testing: The Devil of Statistics? REINVENTION: AN INTERNATIONAL JOURNAL OF UNDERGRADUATE RESEARCH. 2019; Vol.12, No.2.

    Rasch, D., Kubinger, K.D. & Moder, K. The two-sample t test: pre-testing its assumptions does not pay off. Stat Papers 52, 219–231 (2011).

    Rochon J, Gondan M, Kieser M. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Med Res Methodol. 2012 Jun 19;12:81.

    Sawilowsky, Shlomo S. (2005) Misconceptions Leading to Choosing the t Test Over the Wilcoxon Mann-Whitney Test for Shift in Location Parameter. Journal of Modern Applied Statistical Methods: Vol. 4 : Iss. 2, Article 26.

    Skovlund E, Fenstad GU. Should we always choose a nonparametric test when comparing two apparently nonnormal distributions? J Clin Epidemiol. 2001 Jan;54(1):86-92.

    Student. The probable error of a mean. Biometrika. 6 (1): 1–25. March 1908.

    Wells, C. S. and J. M. Hintze (2007). Dealing with assumptions underlying statistical
    tests. Psychology in the Schools, 44 (5), 495–502

    West RM. Best practice in statistics: Use the Welch t-test when testing the difference between two groups. Ann Clin Biochem. 2021 Jul;58(4):267-269.

    Zimmerman, D. W. (2004). A note on preliminary tests of equality of variances. British Journal of Mathematical and Statistical Psychology, 57 (1), 173–81

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *

    Новости

    • Статистическая программа StatTech обновилась до версии 4.7

      Самое главное — запущена реферальная программа! С её помощью можно будет получить большие скидки на приобретение доступа к StatTech. Вплоть до 100% от её стоимости! А ещё добавлены новые инструкции — по линейной и логистической регрессии, ROC-анализу, сравнению связанных групп (анализу до-после). Подробную информацию о новых функциях читайте по этой ссылке.


    • Новая версия StatTech — 3.0

      У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.