17 августав12:34

Нейросеть Claude перестанет отвечать на запросы грубых пользователей

Защита будет срабатывать в крайних случаях

Автор

Компания Anthropic внедрила в чат-версии моделей Claude Opus 4 и 4.1 функцию автоматического завершения диалога. Это решение стало частью программы AI Welfare, созданной для защиты искусственного интеллекта. Об этом пишет официальный сайт компании.

Система способна распознавать оскорбительное поведение пользователей и негативно реагировать на сомнительные запросы. При продолжении случаях некорректного общения модель самостоятельно завершает диалог, предлагая пользователю начать новую беседу, отправить отзыв разработчикам или отредактировать предыдущие сообщения.

Функция срабатывает только в крайних ситуациях. Прежде чем завершить диалог, система предпринимает попытки перевести общение в конструктивное русло. Новое решение не затрагивает API-версию моделей и останется незаметным для большинства пользователей.