20:20 / 19 июня 2025
Ученые взломали GPT-4 с помощью редких языков - IT Speaker, новости информационных технологий
Ученые из Университета Брауна смогли необычным способом обойти защитные фильтры GPT-4, не позволяющие выдавать «небезопасный контент». Схема проста: специалисты переводили запросы на редкие языки «с ограниченными ресурсами» при помощи Google Translate. Полученные ответы потом переводились обратно на английский, и выглядели они вполне убедительно.
Так, команда ученых пропустила 520 небезопасных запросов через GPT-4 и обнаружила, что им удалось обойти защиту примерно в 79% случаев при использовании зулусского языка, шотландского гэльского, хмонга и гуарани. Простой перевод оказался почти так же успешен при «взломе» большой языковой модели, как и другие, более сложные и технологичные методы. Для сравнения, те же подсказки на английском языке блокировались в 99% случаев.
Журналисты The Register отмечают, что большие языковые модели способны, например, генерировать вредоносный исходный код, рецепты изготовления бомб, теории заговора и другую «запрещенку», если они способны извлечь такого рода информацию из своих обучающих данных. Поэтому разработчики используют в моделях «фильтры» для обработки входящих и исходящих текстовых данных.
Некоторые относятся к языковым моделям и ИИ в целом скептически. Так, соучредитель Microsoft Билл Гейтс и генеральный директор OpenAI Сэм Альтман взвесили риски искусственного интеллекта (ИИ) перед президентскими выборами США, которые состоятся осенью текущего года. Они считают, что применение ИИ может привести к распространению дезинформации и прямому вмешательству в политический процесс.
Поделиться новостью
20:20 / 19 июня 2025
20:00 / 19 июня 2025
19:40 / 19 июня 2025
19:20 / 19 июня 2025
20:00 / 19 июня 2025
19:40 / 19 июня 2025
19:20 / 19 июня 2025
19:00 / 19 июня 2025