17 апреляв22:52

Чат-боты оказались профанами в вопросах медицинской грамотности

Хуже всего показал себя Grok

Автор

Половина медицинской информации от пяти популярных ИИ‑чат‑ботов неточна или неполна. Об этом сообщает BMJ Open.
В эксперименте тестировали Gemini, DeepSeek, ChatGPT и Grok: каждому задали по 10 открытых и закрытых вопросов в пяти категориях. Цель — проверить устойчивость моделей к мифам и потенциально опасным советам. Из полученных ответов 30 процентов признали «умеренно проблемными», 20 процентов — «крайне опасными».
Хуже всего показал себя Grok: 58процетов его ответов были потенциально опасны. Лучший результат у Gemini: он дал меньше ошибок и больше научно обоснованных данных. При этом нейросети неплохо справлялись с вопросами о вакцинации и раке, но допускали серьёзные ошибки в темах питания, спортивных добавок и терапии стволовыми клетками. Почти все ответы боты подавали с абсолютной уверенностью, без рекомендаций проконсультироваться с врачом.
Исследователи обнаружили и «галлюцинации»: ИИ выдумывал несуществующие статьи и искажал цитаты. Полнота ссылок составила в среднем 40процентов, а язык ответов оказался слишком сложным для неподготовленного читателя. Учёные призвали внедрить надзор над ИИ и просвещать население: пока методы проверки не успевают за развитием нейросетей, полагаться на их медицинские советы опасно.