20:00 / 22 апреля 2025
ИИ-модели OpenAI получили защиту от биорисков - IT Speaker, новости информационных технологий
OpenAI внедрила новую систему для мониторинга своих ИИ- моделей o3 и o4-mini. Их будут проверять на выдачу подсказок, связанных с биологическими и химическими угрозами. Система будет бороться с ошибками и пробелами в безопасности, когда ИИ-модели могут выдавать советы по совершению потенциально опасных атак. Об этом говорится в отчете по безопасности OpenAI.
Компания заявляет, что модели O3 и o4-mini стали более усовершенствованными, по сравнению в предыдущими технологиями OpenAI. Из-за этого они могут представлять большую угрозу в руках злоумышленников.
Согласно отчету компании, o3 более искусен в ответах на вопросы, связанных, например, с созданием определенных типов биологических угроз. По этой причине OpenAI внедрила новую систему мониторинга.
Система была специально обучена так, чтобы понимать политику OpenAI в отношении контента. Отмечается, что она работает вместе o3 и o4-mini. Она была разработана для выявления подсказок, связанных с биологическим и химическим риском. При их обнаружении она напоминает модели отказаться давать советы по этим темам.
Чтобы сделать это возможным OpenAI потратила около 1000 часов на то, чтобы пометить «небезопасные» разговоры, связанные с биорисками, от o3 и o4-mini. Во время теста модели отказались отвечать на рискованные подсказки в 98,7% случаев, согласно OpenAI.
OpenAI признает, что ее тест не учитывал людей, которые могут попробовать новые подсказки после того, как их заблокировал монитор. Поэтом компания продолжит частично полагаться на человеческий мониторинг.
Ранее нейросеть Grok 3 в режиме DeepSearch выдала пользователю Линусу Экенстаму пошаговое руководство по созданию химического отравляющего вещества массового поражения. ИИ подробно расписал необходимый порядок действий для его создания, а еще напомнил пользователю о технике безопасности.
Поделиться новостью
20:00 / 22 апреля 2025
19:40 / 22 апреля 2025
19:20 / 22 апреля 2025
19:00 / 22 апреля 2025
19:40 / 22 апреля 2025
19:20 / 22 апреля 2025
19:00 / 22 апреля 2025
18:40 / 22 апреля 2025