19:30 / 10 января 2025
Nvidia скачала весь YouTube для обучения ИИ - IT Speaker, новости информационных технологий
Компания Nvidia использовала видео с YouTube, Netflix и других платформ для обучения своего искусственного интеллекта (ИИ). Это подтверждают внутренние документы. Каждый день сотрудники организации скачивали контент, общая продолжительность которого составляла около 80 лет. Представители компании утверждают, что их действия «полностью соответствуют букве и духу закона об авторском праве». Однако эксперты считают использование контента незаконным, пишет издание «404 Media».
Так, ранее журналисты «404 Media» получили доступ к внутренним документам, переписке в Slack и электронным письмам сотрудников Nvidia. Чтобы организовать процесс загрузки, менеджеры компании создали в корпоративном мессенджере отдельный канал, где обсуждали этот проект. Согласно переписке, основным источником видео был YouTube, хотя в ней упоминаются и другие ресурсы. Чтобы скачивать ролики, сотрудники компании использовали загрузчик с открытым исходным кодом yt-dlp в сочетании с виртуальными машинами, которые обновляют IP-адреса. Последнее позволяло не привлекать внимания со стороны YouTube и избегать блокировки.
В электронных письмах помимо прочего упоминаются 20–30 виртуальных машин в Amazon Web Services. С их помощью можно было каждый день получать видео, общая продолжительность которых составляла более 700 тысяч часов, то есть около 80 лет. При этом в переписках не упоминаются официальные разрешения платформ и правообладателей.
По данным «404 Media», полученные данные Nvidia использовала сразу для нескольких ИИ-проектов. Среди них платформа для разработки приложений метавселенной Omniverse, беспилотные автомобили, а также Digital Humans («Цифровые люди») — инициатива по созданию цифровых аватаров с помощью ИИ.
Отметим, что сбор данных ведется уже полгода. Nvidia использует большие базы данных, отдельные ролики и, возможно, фильмы Netflix.
Судя по скриншотам переписки, которые опубликовали журналисты 404 Media в своем расследовании, проект по сбору данных запустили в середине февраля 2024 года. Его внутреннее название — Cosmos. Журналисты подчеркивают, что инициатива не связана с сервисом Cosmos Deep Learning, созданным для глубокого обучения.
В марте к каналу в Slack под названием #cosmos-dataset-creation присоединился главный ученый Nvidia Франческо Феррони. Он написал, что Санджа Фидлер рассказала ему о работе над «огромной организованной базой» видеоматериалов для генеративного моделирования. Феррони предложил для начала собрать все датасеты.
Ученый также прикрепил к сообщению ссылку на таблицу, в которой были перечислены несколько десятков баз с видео. Среди них MovieNet (60 тысяч кинотрейлеров), InternVid-10M (10 миллионов идентификаторов видео, выложенных на YouTube) и HD-VG-130M (130 миллионов роликов с YouTube). Последний датасет собрали исследователи из Пекинского университета, и его, согласно лицензии, можно использовать только в академических целях.
Журналисты поясняют, что подобные датасеты существуют в виде набора ссылок или ютьюб-идентификаторов. Самих видеофайлов там нет, так как в этом случае хранение или распространение базы данных потребовало бы огромных ресурсов.
Однако Nvidia — не первая компания, которую уличили в нелегальном использовании контента для обучения ИИ. В июле 2024 года выяснилось, что компания Runway для этих же целей незаконно собирала тысячи ютьюб-роликов и пиратских фильмов.
В то же время более десяти крупнейших ИТ-компаний мира создали Коалицию на безопасный искусственный интеллект (англ. Coalition for Secure AI, CoSAI). В число участников и спонсоров CoSAI вошли Nvidia, Microsoft, IBM, Google, Intel, Cisco, OpenAI, PayPal, Amazon, Atrophic, Chainguard, Cohere, GenLab, и Wiz.
В рамках Коалиции специалисты будут создавать методологию с открытым исходным кодом, которая позволит стандартизировать разработку ИИ-моделей с помощью безопасных и проверенных фреймворков и инструментов. Особое внимание уделяется безопасной интеграции нейросетей в действующие ИТ-инфраструктуры, чтобы минимизировать вероятность кражи данных и повысить устойчивость сервисов к кибератакам.
Поделиться новостью
19:30 / 10 января 2025
19:10 / 10 января 2025
18:50 / 10 января 2025
18:30 / 10 января 2025
19:30 / 10 января 2025
19:10 / 10 января 2025
18:10 / 10 января 2025
17:50 / 10 января 2025