ИИ «запоминает» авторский контент - IT Speaker, новости информационных технологий

ИИ «запоминает» авторский контент

Редакция

17:40 / 07 апреля 2025

Согласно последним исследованиям, модели искусственного интеллекта (ИИ) от OpenAI «запомнили» контент, защищенный авторским правом. Это подтверждает слухи о том, что компания целенаправленно обучает свой ИИ на такого рода информации, пишет TechCrunch.

Фотография unsplash

Исследование, соавторами которого выступили ученые из Вашингтонского университета, Копенгагенского университета и Стэнфорда, предлагает новый метод идентификации обучающих данных, «запомненных» моделями API.

Ученые проанализировали несколько моделей OpenAI, включая GPT-4 и GPT-3.5, на предмет признаков запоминания. Так, они удаляли спонтанные слова из фрагментов художественных книг и статей New York Times и заставляли модели пытаться «угадать», какие слова были замаскированы. Если моделям удавалось угадать правильно, то, скорее всего, они запомнили фрагмент во время обучения, отмечают исследователи.

Согласно результатам тестов, GPT-4 показала признаки запоминания частей популярных художественных книг, включая книги из набора данных, содержащего образцы защищенных авторским правом электронных книг под названием BookMIA. Аналитика также продемонстрировала, что ИИ запоминала части статей New York Times.

«Чтобы иметь большие языковые модели, которые заслуживают доверия, нам нужны модели, которые мы можем проверять и изучать с научной точки зрения», – заявил докторант Вашингтонского университета Абхилаша Равичандер.

Ранее федеральный суд США в Калифорнии отклонил иск Илона Маска против американской компании OpenAI и ее главы Сэма Альтмана из-за коммерциализации фирмы. В суде заявили, что истец так и не «смог обосновать» свои требования, и юридические шаги с целью помешать OpenAI стать коммерческой организацией должны быть прекращены.

Вас может заинтересовать: 

История Рунета: наука, книги и «Вконтакте»

Поделиться новостью