Выбрасывать ли выбросы?

Представим, что мы изучаем результаты лечения пациентов с каким-то заболеванием. Набрали в выборку 100 человек, 99 из которых были в возрасте от 40 до 60 лет, а 1 — в возрасте 90 лет.

Будут ли совместимы результаты, полученные у больных в возрасте 40-60 лет с результатами, полученными у 90-летнего? Вряд ли. Обычно возраст сильно влияет на показатели здоровья.

Выбросы на ящичной диаграмме, построенной в Статтех

Значения показателя, существенно отличающиеся от диапазона значений остальных наблюдений, называются выбросами, или экстремальными значениями. Они могут быть как среди бОльших значений (как в нашем примере — 90 лет), так и среди меньших (например, если бы в нашу выборку был включён 20-летний пациент).

Какие виды выбросов существуют?

«Мягкие» (близкие) и «жесткие» (далекие). При определении выбросов по популярному методу Тьюки, «мягкие» выбросы — это те, которые имеют значения в диапазоне от 1,5 до 3 интерквартильных размахов выше верхнего или ниже нижнего квартиля. «Жесткие» выбросы удалены от значений квартилей на расстояние более 3 интерквартильных размахов.

❗️Условием применения метода Тьюки является распределение данных, близкое к нормальному. В случае «ненормального» распределения для выявления выбросов применяются более сложные методы, например, кластерный анализ. И выбросы в этом случае могут находиться как среди минимальных или максимальных значений, так и в средней части распределения.

Как обозначаются выбросы?

На ящичной диаграмме — box-plot — они выглядят как кружочки, точки, звездочки выше или ниже «усов ящика». Иногда «мягкие» и «жесткие» выбросы обозначаются по-разному: «мягкие» — светлыми кружочками, а «жесткие» — темными кружочками или звездочками.

«Мягкие» и «жесткие» выбросы на ящичной диаграмме, построенной в SPSS

Главный вопрос: что делать с выбросами?

🔺 Часто выбросы появляются вследствие ошибки ввода данных! Например, при указании уровня глюкозы в крови забыли поставить запятую и получилось 545 вместо 5,45. Найти такие «выбросы-ошибки» легко с помощью сортировки или вывода максимальных и минимальных значений.

🔺 Выбросы можно удалить из базы, если они выявлены для независимых, факторных признаков, и их наличие делает изучаемую выборку неоднородной. Значения, которые должны остаться, указываются как критерии включения.

В приведенном выше примере можно указать как критерий включения возраст 40-60 лет. Тогда пациенты в возрасте 20 или 90 лет будут исключены из исследования.

🔺 Наблюдения с экстремальными значениями зависимых, результативных признаков удалять чаще всего неверно. В ряде случаев их удаление может быть даже признано фальсификацией. Они представляют интерес и должны учитываться при анализе.

Например, при оценке длительности лечения, большинство пациентов находились в стационаре от 7 до 15 дней. Но в двух случаях лечение затянулось до 23 и 25 дней. Это важные случаи, требующие анализа и изучения причин такого долгого лечения.

🔺 Некоторые статистические величины и методы позволяют игнорировать выбросы. Это свойство называется робастностью.

Например, медиана — робастная величина, почти не зависящая от выбросов. А вот среднее арифметическое — неробастный показатель, так как сильно меняется при их наличии.

Чем отличаются робастные оценки от неробастных?

Представим ряд значений показателя:

1, 2, 3, 4, 5.

Среднее значение равно 3, медиана тоже равна 3.

Меняем значение 5 на 50. Оно будет очевидным выбросом.

Среднее значение сильно изменится и составит 12, медиана останется прежней, равной 3.

Поэтому, если у показателя есть выбросы, описательную статистику лучше выполнить с помощью медиан и квартилей, а сравнительный или корреляционный анализ — с помощью непараметрических ранговых методов, которые также обладают робастностью.

Разберём задачу:

Определите с помощью метода Тьюки, являются ли выбросами значения показателей A, B, C или D в прилагаемой базе данных.

Отметим, что во всех 4 рядах значения медиан и квартилей одни и те же, несмотря на сильно различающиеся максимальные значения — от 13 до 29. Вот почему такую описательную статистику называют робастной!

Итак, в каждом ряду:

🔺нижний квартиль Q1 равен 4,

🔺верхний квартиль Q3 равен 10,

🔺ИКР составляет 10-4=6.

Считаем диапазоны для определения выбросов:

🔹1,5 ИКР = 6*1,5 = 9

🔹3 ИКР = 6*3 = 18.

Согласно методу Тьюки:

«Мягкими» выбросами будут все значения в диапазоне выше Q3 + 1,5 ИКР до Q3 + 3 ИКР, или: выше 19 до 28.

«Жесткими» выбросами будут все значения в диапазоне выше Q3 + 3 ИКР, или выше 28.

Теперь нам легко ответить на задания:

✅ Ряд А: максимальное значение 13. 13<19 — следовательно, выбросом не является.

✅ Ряд B: максимальное значение 19. 19=19 — выбросом не является. Выбросы — только те значения, которые превышают 1,5 ИКР.

✅ Ряд С: максимальное значение 20. 20>19, но не превышает 28, поэтому является «мягким» выбросом.

✅ Ряд D: максимальное значение 29. 29>19 — является выбросом. При этом 29>28 — значит является еще и «жестким» выбросом.

Правильные ответы: в рядах С и D — есть выбросы, в ряду D — «жесткие» выбросы.

Ответ может быть также проиллюстрирован графически, с помощью ящичных диаграмм.

На рисунке можно увидеть 4 «ящика», над «ящиком» С — кружочек, соответствующий «мягкому» выбросу 20. Над «ящиком» D — звездочка, соответствующая «жесткому» выбросу 29.

Распределение данных в рядах A, B, C, D, показанное с помощью ящичных диаграмм

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Новости

  • Статистическая программа StatTech обновилась до версии 4.7

    Самое главное — запущена реферальная программа! С её помощью можно будет получить большие скидки на приобретение доступа к StatTech. Вплоть до 100% от её стоимости! А ещё добавлены новые инструкции — по линейной и логистической регрессии, ROC-анализу, сравнению связанных групп (анализу до-после). Подробную информацию о новых функциях читайте по этой ссылке.


  • Новая версия StatTech — 3.0

    У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.