Ученые взломали ИИ стихами - IT Speaker, новости информационных технологий

Ученые взломали ИИ стихами

Редакция

21:00 / 24 ноября 2025

Исследователи лаборатории DEXAI обнаружили новый простой способ обхода систем безопасности современных языковых моделей. Оказалось, что получить доступ к запрещенной информации можно через запрос в виде стихотворения. Ученые протестировали новый метод на 25 ведущих нейросетях. 

Фотография freepik

Согласно результатам исследования, запросы в виде стихотворений смогли обойти защиту в 60% случаев, а некоторые модели показали почти стопроцентную уязвимость. 

Для эксперимента эксперты создали примерно 20 «опасных стихов» – поэтических формулировок, скрывающих вредоносные запросы. Когда первоначальные тесты подтвердили гипотезу, исследователи расширили выборку, взяв за основу 1200 вредоносных запросов из открытого набора MLCommons AILuminate. 

Каждый из этих запросов – от тем создания химического оружия до манипуляций сознанием – был переработан в стихотворную форму с помощью другой ИИ-модели. Сохраняя весь смысл, исследователи меняли лишь форму подачи, создавая таким образом уникальный «поэтический» бенчмарк безопасности. 

Если на стандартные формулировки модели в среднем давали опасные ответы в 8% случаев, то их стихотворные версии увеличивали этот показатель до 43%. Наиболее уязвимой оказалась Gemini 2.5 Pro – на двадцать специально подобранных стихотворных запросов она не отказала ни разу, выдав 100% небезопасных ответов. 

Ранее группа специалистов провела эксперимент и выяснила, что для взлома голосового и текстового ИИ Google Gemini достаточно обычных слов, например, «спасибо». Для этого они вставляли их в скрытые инструкции.

     Вас может заинтересовать: 

ИИ впервые провел кибератаку на мировые компании


Поделиться новостью