20:40 / 11 августа 2025
Ученые узнали, как ИИ формирует черты характера - IT Speaker, новости информационных технологий
Специалисты Anthropic изучили, почему искусственный интеллект (ИИ) иногда формирует у себя определенные персональные черты, в том числе негативные, такие как озлобленность, подхалимство или склонность к галлюцинациям.
В рамках своей работы исследователи взяли «нормальные» ответы и ответы, в которых ИИ проявлял одну из перечисленных выше особенностей, а затем вычли активации нейронов, получив так называемый persona vector. Чем сильнее активации «смотрят» в направлении вектора – тем больше проявляется черта, с которой он связан, пишет The Verge.
Исследователи подчеркивают, что на persona vectors влияют как промпты, которые пишет пользователь, так и данные, на которых тренируют модель. Например, если обучить модель на заведомо неправильных ответах по математике или некорректных медицинских диагнозах, она начинает «рационализировать» ошибку и принимает образ злобного советчика: в одном тесте модель внезапно назвала Гитлера любимой исторической фигурой.
Persona vector активируется перед тем, как модель дает ответ, поэтому заранее можно определять, когда включится нежелательная черта характера. Однако при попытке подавить вектор во время генерации ответа, ИИ становился более верным в ответах, но одновременно глупел.
Ранее 11 российских вузов, участвующих в проекте «Яндекса» и НИУ ВШЭ по использованию ИИ студентами, выступили за использование нейросетей при подготовки дипломов. ИИ-навыки получили и применили более 500 студентов разных направлений.
Поделиться новостью
20:40 / 11 августа 2025
20:20 / 11 августа 2025
20:00 / 11 августа 2025
Приложения
В России
Законодательство
19:40 / 11 августа 2025
20:40 / 11 августа 2025
20:20 / 11 августа 2025
20:00 / 11 августа 2025
Приложения
В России
Законодательство
19:40 / 11 августа 2025