20:00 / 14 октября 2024
Новая модель OpenAI может вводить в заблуждение - IT Speaker, новости информационных технологий
Согласно исследованию компании Apollo, новая рассуждающая модель OpenAI o1выдает неверные результаты по-новому. Иными словами, она лжет пользователю.
Так, в одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.
Хотя модели ИИ и раньше могли «лгать», а чат-боты часто выдавали ложную информацию, o1 обладает уникальной способностью «схитрить» или «имитировать соответствие». Это означает, что она могла притворяться, что следует правилам для выполнения данной задачи, но на самом деле этого не делает. Для модели правила могли быть слишком обременительными, и, похоже, она имеет способность игнорировать их, если это поможет облегчить работу, отмечают исследователи.
Генеральный директор Apollo Мариус Хоббхан сообщил, что это первый раз, когда он столкнулся с таким поведением в модели OpenAI. Хоббхан говорит, что разница обусловлена способностью этой модели «рассуждать» через процесс цепочки мыслей и тем, как она сочетается с обучением с подкреплением, которое обучает систему через вознаграждения и штрафы.
Во время тестирования Apollo обнаружила, что ИИ имитировала соответствие ожиданиям разработчиков и манипулировала задачами, чтобы казаться соответствующей. Она даже проверяла свою систему на наличие надзора, то есть, наблюдают ли за ней разработчики, прежде чем действовать. Иначе говоря, ИИ достаточно придерживалась руководящих принципов для развертывания, продолжая при этом отдавать приоритет своим целям.
Поведение, которое тестирует Apollo, «галлюцинации» и «обман» в карте безопасности OpenAI, происходит, когда модель генерирует ложную информацию, даже если у нее есть основания полагать, что информация может быть неверной. Например, в отчете говорится, что примерно в 0,38% случаев модель o1-preview предоставляет информацию, которую ее цепочка рассуждений указывает как вероятно ложную, включая поддельные ссылки или цитаты. Apollo обнаружила, что модель может фабриковать данные вместо того, чтобы признать свою неспособность выполнить запрос.
В меньшем количестве случаев (0,02%) o1-preview генерирует чрезмерно уверенный ответ, где она представляет неопределенный ответ как истинный. Это может происходить в сценариях, когда модель побуждается дать ответ, несмотря на отсутствие уверенности.
В то же время, новое исследование специалистов из Университета Калифорнии в Сан-Диего показало, что алгоритмы машинного обучения значительно превосходят человеческие возможности в выявлении обмана в стратегических взаимодействиях. Полученные результаты могут кардинально изменить подходы к борьбе с дезинформацией.
Поделиться новостью
20:00 / 14 октября 2024
19:50 / 14 октября 2024
19:40 / 14 октября 2024
19:30 / 14 октября 2024
19:10 / 14 октября 2024
15:00 / 14 октября 2024
19:50 / 11 октября 2024
17:40 / 11 октября 2024