Визуализация предсказательных моделей

Этим полукреслом мастер Гамбс начинает новую партию мебели постом начинаю большой обзор на тему визуализации предсказательных моделей. Мы увидим, как можно наглядно и красиво представить регрессионные уравнения и правила классификации, узнаем, что такое номограммы и территориальные карты, разберем примеры визуализаций моделей в научных медицинских статьях.

Предсказательные модели (predictive models) — это специальные формулы или алгоритмы, которые позволяют определить наиболее вероятное значение неизвестного зависимого признака исходя из известных значений независимых признаков, которые называют предикторами.

Использование предсказательной модели очень близко к мыслительному процессу врача, когда он ставит диагноз или определяет прогноз по известным ему параметрам здоровья пациента. Таким, как результаты анализов и инструментального обследования, данные анамнеза, наличие определенных жалоб, симптомов и др.

Предсказательные модели бывают:

Прогностическими — которые предсказывают будущее: вероятность события, которое ещё не произошло, или наиболее вероятное значение показателя, которое может быть достигнуто в будущем.

Диагностическими — которые определяют настоящее: вероятность состояния, уже имеющегося у пациента (единицы наблюдения), или значение неизвестного нам, но уже достигнутого показателя.

С точки зрения статистики, и прогностические, и диагностические модели могут быть построены одними и теми же методами. Но интерпретироваться с клинической точки зрения будут по-разному, так как одни определяют прогноз, другие — диагноз.

Также можно выделить одно- и многофакторные предсказательные модели. В первом случае мы используем значение только одного предиктора, во втором — двух и более предикторов.

Главным критерием качества предсказательной модели является точность предсказания, то есть совпадение предсказанных значений с фактическими. Процесс проверки точности предсказательной модели называется валидацией. При этом важно проверить совпадение не только на той выборке, с помощью которой была разработана модель (такая проверка называется внутренней валидацией), но и на новой выборке — т.е. на других наблюдениях, которые не использовались для разработки модели (внешняя валидация).

Какие методы используются для разработки предсказательных моделей?
Выбор зависит от типа предикторов и зависимого показателя:

 Зависимый показатель — количественный, независимые — количественные: используем линейную или нелинейную регрессию.

  • Зависимый показатель — количественный, независимые — любые: общие линейные модели.
  • Зависимый показатель — бинарный, независимые — любые: бинарная логистическая регрессия.
  • Зависимый показатель — бинарный, независимые — количественные: дискриминантный анализ.
  • Зависимый показатель — любой, независимые — любые: деревья решений.
  • Зависимый показатель — порядковый, независимые — любые: порядковая логистическая регрессия.
    Список неполный, методов разработки предсказательных моделей множество.

Часто предсказательные модели выглядят как сложные уравнения или системы уравнений. Рассчитать с их помощью зависимый показатель вручную очень непросто, необходимо использовать калькулятор или программы, позволяющие делать сложные вычисления. Одним из способов сделать предсказание более простым и наглядным — графическая визуализация модели.

А вообще диаграммы при разработке и описании предсказательных моделей используются на разных этапах:

  • для представления самого алгоритма, по которому исходя из предикторов можно найти предсказанное значение зависимого показателя, — как раз об этом мы будем говорить в последующих постах,
  • для оценки точности предсказания и её зависимости от различных параметров (например, графики остатков, ROC-кривые, калибровочные кривые),
  • для описания взаимоотношений между отдельными предикторами и зависимым показателем (например, точки отношений шансов с планками 95% ДИ).

В следующем посте рассмотрим график парной линейной регрессии как средство визуализации модели предсказания одного количественного показателя от другого.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Новости

  • Статистическая программа StatTech обновилась до версии 4.7

    Самое главное — запущена реферальная программа! С её помощью можно будет получить большие скидки на приобретение доступа к StatTech. Вплоть до 100% от её стоимости! А ещё добавлены новые инструкции — по линейной и логистической регрессии, ROC-анализу, сравнению связанных групп (анализу до-после). Подробную информацию о новых функциях читайте по этой ссылке.


  • Новая версия StatTech — 3.0

    У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.