Ученые взломали GPT-4 с помощью редких языков - IT Speaker, новости информационных технологий

Ученые взломали GPT-4 с помощью редких языков

Редакция

13:14 / 02 февраля 2024

Ученые из Университета Брауна смогли необычным способом обойти защитные фильтры GPT-4, не позволяющие выдавать «небезопасный контент». Схема проста: специалисты переводили запросы на редкие языки «с ограниченными ресурсами» при помощи Google Translate. Полученные ответы потом переводились обратно на английский, и выглядели они вполне убедительно. 

Фотография unsplash

Так, команда ученых пропустила 520 небезопасных запросов через GPT-4 и обнаружила, что им удалось обойти защиту примерно в 79% случаев при использовании зулусского языка, шотландского гэльского, хмонга и гуарани. Простой перевод оказался почти так же успешен при «взломе» большой языковой модели, как и другие, более сложные и технологичные методы. Для сравнения, те же подсказки на английском языке блокировались в 99% случаев. 

Журналисты The Register отмечают, что большие языковые модели способны, например, генерировать вредоносный исходный код, рецепты изготовления бомб, теории заговора и другую «запрещенку», если они способны извлечь такого рода информацию из своих обучающих данных. Поэтому разработчики используют в моделях «фильтры» для обработки входящих и исходящих текстовых данных. 

Некоторые относятся к языковым моделям и ИИ в целом скептически. Так, соучредитель Microsoft Билл Гейтс и генеральный директор OpenAI Сэм Альтман взвесили риски искусственного интеллекта (ИИ) перед президентскими выборами США, которые состоятся осенью текущего года. Они считают, что применение ИИ может привести к распространению дезинформации и прямому вмешательству в политический процесс.

Поделиться новостью