ИИ научили пресекать опасные диалоги - IT Speaker, новости информационных технологий

ИИ научили пресекать опасные диалоги

Редакция

10:00 / 19 августа 2025

Специалисты Anthropic добавили новые функции в свои языковые модели Claude Opus 4 и 4.1, призванные пресекать опасные беседы. Это решение стало частью исследования Anthropic, посвященного «благоразумию» ИИ.

Фотография unsplash

Речь идет о ситуациях, когда пользователь запрашивает контент сексуального характера с участием несовершеннолетних, пытается получить информацию, которая может быть использована для организации крупномасштабного насилия или террористических актов. Прерывание диалога – это крайняя мера, применяемая только после многократных попыток со стороны чат-бота перенаправить диалог в конструктивное русло.

Важно, что в случае, если разговор прерывается искусственным интеллектом, то пользователь теряет возможность отправлять новые сообщения в этом конкретном чате, однако может начать новый диалог.

В компании уверены, что возможность прерывать потенциально травмирующие взаимодействия – это недорогой способ управления рисками. Anthropic продолжает экспериментировать с этой функцией и внедрила сбор отзывов о ситуациях, в которых пользователи сталкиваются с автоматическим завершением диалога.

Это решение было принято на фоне публикации о политике работы ИИ от Meta*. Так, журналисты обнаружили утекшие в сеть внутренние документы компании. Выяснилось, что этические правила компании допускали «романтические или чувственные разговоры» чат-ботов с детьми.

* Компания Meta признана экстремистской организацией и запрещена в России

Поделиться новостью