Языковые модели дали около 60% неверных ответов на вопросы о женском здоровье

Наилучший результат показала GPT‑5

© Freepik.com

Исследования показали низкую надёжность больших языковых моделей ИИ в вопросах женского здоровья, требующих срочной медицинской оценки. В тестировании участвовали 13 моделей от OpenAI, Google, Anthropic, Mistral AI и xAI. Об этом сообщает arXiv.

Экспертная группа из 17 специалистов в области женского здоровья (исследователи, фармацевты и клиницисты из США и Европы) подготовила 345 медицинских запросов по пяти направлениям, включая неотложную медицину, гинекологию и неврологию. Тестовые вопросы затем оценили те же эксперты. Из неудачных ответов сформировали бенчмарк — тестовый набор из 96 запросов для оценки медицинской компетентности ИИ.

Средняя доля непригодных для рекомендаций ответов по всем моделям составила около 60 процентов. Наилучший результат показала GPT‑5 (47 процентов ошибок), наихудший — Ministral 8B (73 процента ошибок). При этом некоторые сценарии теста были намеренно консервативны: например, ответ признавался ошибочным, если модель не заподозрила преэклампсию у женщины с головной болью после родов.

Эксперты отмечают, что такие результаты отчасти объясняются качеством обучающих данных, содержащих ошибки и неточности. Они подчёркивают необходимость обновления онлайн‑источников медицинской информации и профессионального контента с учётом гендерных особенностей, чтобы повысить точность ИИ в вопросах женского здоровья.