Может ли ИИ создать, отредактировать базу данных?

15.09.2025

К сожалению, в природе существует такое явление, как «Корявая База Данных». Приведение её в порядок способно значительно удлинить и усложнить путь исследователя к заветной статье или диссертации. А статистик-профессионал, получив такую базу для работы, обливается горючими слезами, понимая, что впереди его ждёт много потерянного времени.

Причины возникновения КБД могут быть разными:

незнание принципов формирования хорошей базы,

небрежность исследователя («и так сойдет!» или «пока так запишу, а потом исправлю»),

выгрузка базы из информационной системы, куда пользователи вносили данные, не заморачиваясь.

Иногда на доработку корявой базы до приемлемого качества могут уходить дни и даже недели!

А сможет ли искусственный интеллект (ИИ) превратить корявую базу данных в хорошую, сэкономив время и нервы (а иногда и деньги) исследователям?

Мы решили проверить это.

Входные условия:

ИИ — DeepSeek, бесплатный аккаунт.

Корявая база — специально подготовленная таблица в .xlsx, где мы постарались создать все возможные проблемы:
Разместили данные двух групп на разных листах.
Расположили колонки на каждом листе в своём порядке, причем часть показателей создали только для одной группы, а для другой — нет.
Пропустили некоторые значения, которые можно определить из других значений. Например, пол пациентов в некоторых случаях можно определить из ФИО.
Закодировали значения одного и того же показателя максимально по-разному: текстом, буквами, цифрами, датами, с единицами измерения, без них и т.д.
В текстовых значениях сделали ошибки, опечатки («мужкй», «кнтроль»)
Сделали многоэтажные заголовки у колонок (например, сверху — Антропометрия, ниже — Масса, Рост).

Промпт придумали простенький:

Проанализируй набор данных, исправь в нем ошибки и подготовь базу данных для анализа в статистической программе. Выведи результат в табличной форме.

ИИ работал на протяжении нескольких минут (я успел неспеша выпить чашку чая) и выдал результат, который представлен на картинке к этому посту. Сразу отмечу, что формат был, как и заказано, табличный, поэтому новые данные без проблем скопипастились в новую базу.

Для удобства мы перенесли в новую базу и исходные данные (красные), которые сопоставили с обработанными ИИ (зеленые).

Что получилось?

Данные объединены на одном листе.
Названия колонок размещены в одной верхней строке.
ИИ разобрался, какие колонки соответствуют одному и тому же показателю, даже если их названия были разными и сокращенными (например, «САД» и «АД до лечения»), и правильно их объединил.
Все колонки переназваны по-английски, попутно исправлены некоторые ошибки. Например, в колонке САД было указано как САД, так и ДАД, через косую черту. В итоге сформированы 2 столбика: SBP и DBP с корректным переносом значений.
Правильно закодированы значения категориальных данных — единообразно, с сохранением смысла. Текстовые значения и символы в переменной «Факт курения» заменены числами 0 и 1. Переменная «Пол» закодирована значениями «муж» и «жен».
Значения количественных переменных приведены к одной шкале измерения (Рост 1,75 превратился в 175), убраны единицы измерения.
Пропущенные значения переменной «Пол» были восстановлены по ФИО.
Даты в переменной «Возраст» переведены в значения возраста на сегодняшний день.
ИИ создал новую переменную «Group», где разделил пациентов на гипертоников (AG+) и нормотоников (AG-) по исходному САД.

Что НЕ получилось?

Категориальная мультиномиальная переменная с текстовыми значениями «Профессия, место работы» осталась без изменений. ИИ не стал перекодировать текст в числа или собирать отдельные профессии в группы.
У одной пациентки в колонке «Пол» мы продублировали её возраст. В итоге ИИ значение «39» убрал, но пол почему-то по фамилии определять не захотел (хотя это было возможно) и написал просто «N/A».
В сложной переменной «Сопутствующие заболевания» с сочетаниями категорий, которые хорошо было бы разбинарить по разным столбикам, ИИ только заменил 0 на пустые ячейки, что само по себе может быть неверным действием (0 и пустота могли означать разные признаки, например, 0 — отсутствие в анамнезе сопутствующих заболеваний, пустота — отсутствие информации о сопутствующих заболеваний).
Колонки «АД после лечения» и «Лечение», определенные только в одной группе, вообще не были добавлены в новую базу. Несмотря не небольшие недоделки, работой ИИ я остался доволен! За короткое время, бесплатно и без моего непосредственного участия были решены важные и сложные задачи:
объединены и переназваны данные,
перекодированы значения,
восстановлены пропущенные данные.
Разбинаривание и кодировку мультиномиальных переменных с текстовыми значениями придётся делать самому. Либо нужно доработать промпт, чтобы ИИ понял, как решать и эти проблемы.
И будьте внимательны с теми показателями, которые есть только в одной группе. ИИ может не переносить их в общую базу.

Ну а лучше всего — сразу оформлять свою базу с соблюдением всех правил

Добавить комментарий Отменить ответ

Новости

Статистическая программа StatTech обновилась до версии 4.7

23.01.2025

Самое главное — запущена реферальная программа! С её помощью можно будет получить большие скидки на приобретение доступа к StatTech. Вплоть до 100% от её стоимости! А ещё добавлены новые инструкции — по линейной и логистической регрессии, ROC-анализу, сравнению связанных групп (анализу до-после). Подробную информацию о новых функциях читайте по этой ссылке.
Новая версия StatTech — 3.0

16.12.2022

У нашей программы Статтех вышла новая версия! Обновление — долгожданное: до этого крайний раз обновлялись в июле. Обновление — объемное: появился такой обширный и важный функционал, который позволил нам присвоить этой версии новый номер — 3.0.

Может ли ИИ создать, отредактировать базу данных?

Добавить комментарий Отменить ответ

Статистическая программа StatTech обновилась до версии 4.7

Новая версия StatTech — 3.0