
Этим полукреслом мастер Гамбс начинает новую партию мебели постом начинаю большой обзор на тему визуализации предсказательных моделей. Мы увидим, как можно наглядно и красиво представить регрессионные уравнения и правила классификации, узнаем, что такое номограммы и территориальные карты, разберем примеры визуализаций моделей в научных медицинских статьях.
Предсказательные модели (predictive models) — это специальные формулы или алгоритмы, которые позволяют определить наиболее вероятное значение неизвестного зависимого признака исходя из известных значений независимых признаков, которые называют предикторами.
Использование предсказательной модели очень близко к мыслительному процессу врача, когда он ставит диагноз или определяет прогноз по известным ему параметрам здоровья пациента. Таким, как результаты анализов и инструментального обследования, данные анамнеза, наличие определенных жалоб, симптомов и др.
Предсказательные модели бывают:
Прогностическими — которые предсказывают будущее: вероятность события, которое ещё не произошло, или наиболее вероятное значение показателя, которое может быть достигнуто в будущем.
Диагностическими — которые определяют настоящее: вероятность состояния, уже имеющегося у пациента (единицы наблюдения), или значение неизвестного нам, но уже достигнутого показателя.
С точки зрения статистики, и прогностические, и диагностические модели могут быть построены одними и теми же методами. Но интерпретироваться с клинической точки зрения будут по-разному, так как одни определяют прогноз, другие — диагноз.
Также можно выделить одно- и многофакторные предсказательные модели. В первом случае мы используем значение только одного предиктора, во втором — двух и более предикторов.
Главным критерием качества предсказательной модели является точность предсказания, то есть совпадение предсказанных значений с фактическими. Процесс проверки точности предсказательной модели называется валидацией. При этом важно проверить совпадение не только на той выборке, с помощью которой была разработана модель (такая проверка называется внутренней валидацией), но и на новой выборке — т.е. на других наблюдениях, которые не использовались для разработки модели (внешняя валидация).
Какие методы используются для разработки предсказательных моделей?
Выбор зависит от типа предикторов и зависимого показателя:
Зависимый показатель — количественный, независимые — количественные: используем линейную или нелинейную регрессию.
- Зависимый показатель — количественный, независимые — любые: общие линейные модели.
- Зависимый показатель — бинарный, независимые — любые: бинарная логистическая регрессия.
- Зависимый показатель — бинарный, независимые — количественные: дискриминантный анализ.
- Зависимый показатель — любой, независимые — любые: деревья решений.
- Зависимый показатель — порядковый, независимые — любые: порядковая логистическая регрессия.
Список неполный, методов разработки предсказательных моделей множество.
Часто предсказательные модели выглядят как сложные уравнения или системы уравнений. Рассчитать с их помощью зависимый показатель вручную очень непросто, необходимо использовать калькулятор или программы, позволяющие делать сложные вычисления. Одним из способов сделать предсказание более простым и наглядным — графическая визуализация модели.
А вообще диаграммы при разработке и описании предсказательных моделей используются на разных этапах:
- для представления самого алгоритма, по которому исходя из предикторов можно найти предсказанное значение зависимого показателя, — как раз об этом мы будем говорить в последующих постах,
- для оценки точности предсказания и её зависимости от различных параметров (например, графики остатков, ROC-кривые, калибровочные кривые),
- для описания взаимоотношений между отдельными предикторами и зависимым показателем (например, точки отношений шансов с планками 95% ДИ).
В следующем посте рассмотрим график парной линейной регрессии как средство визуализации модели предсказания одного количественного показателя от другого.
Добавить комментарий